अधिकांश डेटा विज्ञान परियोजनाओं के लिए अपर्याप्त डेटा अक्सर बड़ी असफलताओं में से एक है। हालांकि, किसी भी परियोजना के लिए डेटा एकत्र करने का तरीका जानना आपको एक महत्वपूर्ण कौशल है जिसे आपको डेटा वैज्ञानिक के रूप में प्राप्त करना होगा।

डेटा वैज्ञानिक और मशीन लर्निंग इंजीनियर अब प्रशिक्षण एल्गोरिदम के लिए अधिक डेटा प्राप्त करने के लिए आधुनिक डेटा एकत्रीकरण तकनीकों का उपयोग करते हैं। यदि आप अपने पहले डेटा साइंस या मशीन लर्निंग प्रोजेक्ट को अपनाने की योजना बना रहे हैं, तो आपको डेटा प्राप्त करने में भी सक्षम होना चाहिए।

आप इस प्रक्रिया को अपने लिए कैसे आसान बना सकते हैं? आइए कुछ आधुनिक तकनीकों पर एक नज़र डालें जिसका उपयोग आप डेटा एकत्र करने के लिए कर सकते हैं।

आपको अपने डेटा साइंस प्रोजेक्ट के लिए अधिक डेटा की आवश्यकता क्यों है

मशीन लर्निंग एल्गोरिदम अधिक सटीक, सटीक और भविष्य कहनेवाला बनने के लिए डेटा पर निर्भर करता है। इन एल्गोरिदम को डेटा के सेट का उपयोग करके प्रशिक्षित किया जाता है। प्रशिक्षण प्रक्रिया एक छोटे बच्चे को पहली बार किसी ऑब्जेक्ट का नाम सिखाने की तरह है, फिर जब वे अगली बार इसे देखते हैं, तो उन्हें अकेले इसे पहचानने की अनुमति देता है।

मनुष्य को एक नई वस्तु को पहचानने के लिए केवल कुछ उदाहरणों की आवश्यकता होती है। मशीन के लिए ऐसा नहीं है, क्योंकि किसी वस्तु से परिचित होने के लिए उसे सैकड़ों या हजारों समान उदाहरणों की आवश्यकता होती है।

इन उदाहरणों या प्रशिक्षण वस्तुओं को डेटा के रूप में आने की आवश्यकता है। एक समर्पित मशीन लर्निंग एल्गोरिदम फिर डेटा के उस सेट से गुजरता है जिसे प्रशिक्षण सेट कहा जाता है - और अधिक सटीक बनने के लिए इसके बारे में अधिक सीखता है।

इसका मतलब है कि यदि आप अपने एल्गोरिथ्म को प्रशिक्षित करने के लिए पर्याप्त डेटा की आपूर्ति करने में विफल रहते हैं, तो आपको अपनी परियोजना के अंत में सही परिणाम नहीं मिल सकता है क्योंकि मशीन में सीखने के लिए पर्याप्त डेटा नहीं है।

तो, अपने परिणाम की सटीकता में सुधार करने के लिए पर्याप्त डेटा प्राप्त करना आवश्यक है। आइए देखें कुछ आधुनिक रणनीतियाँ जिनका उपयोग आप नीचे प्राप्त करने के लिए कर सकते हैं।

1. सीधे वेब पेज से डेटा स्क्रैप करना

वेब स्क्रैपिंग वेब से डेटा प्राप्त करने का एक स्वचालित तरीका है। अपने सबसे मूल रूप में, वेब स्क्रैपिंग में किसी वेबसाइट पर तत्वों को स्थानीय फ़ाइल में कॉपी करना और चिपकाना शामिल हो सकता है।

हालांकि, वेब स्क्रैपिंग में विशेष स्क्रिप्ट लिखना या सीधे वेबपेज से डेटा को स्क्रैप करने के लिए समर्पित टूल का उपयोग करना भी शामिल है। यह भी अधिक गहराई से डेटा संग्रह का उपयोग कर शामिल कर सकता है अनुप्रयोग प्रोग्रामिंग इंटरफेस (एपीआई) सर्पस्टैक की तरह.

सर्पस्टैक एपीआई के साथ खोज परिणामों से उपयोगी डेटा खींचें

सर्पस्टैक एपीआई के साथ, आप Google और अन्य खोज इंजनों के परिणाम पृष्ठों से आसानी से जानकारी प्राप्त कर सकते हैं।

हालांकि कुछ लोगों का मानना ​​है कि वेब स्क्रैपिंग से बौद्धिक संपदा का नुकसान हो सकता है, यह तभी हो सकता है जब लोग दुर्भावना से ऐसा करें। वेब स्क्रैपिंग कानूनी है और व्यवसायों को अपने ग्राहकों और प्रतियोगियों के बारे में सार्वजनिक जानकारी एकत्र करके बेहतर निर्णय लेने में मदद करता है।

सम्बंधित: वेब स्क्रैपिंग क्या है? वेबसाइट से डाटा कैसे कलेक्ट करें

उदाहरण के लिए, कीमतों और उपलब्धता की तुलना करने के लिए आप ऑनलाइन स्टोर से डेटा एकत्र करने के लिए एक स्क्रिप्ट लिख सकते हैं। हालांकि यह थोड़ा और अधिक तकनीकी हो सकता है, आप कच्चे मीडिया जैसे ऑडियो फाइलों और छवियों को वेब पर भी एकत्र कर सकते हैं।

पायथन के साथ वेब स्क्रैपिंग की एक झलक पाने के लिए नीचे दिए गए उदाहरण कोड पर एक नज़र डालें beautifulsoup4 HTML पार्सर लाइब्रेरी।

से bs4 आयात
urllib.request से urlopen आयात करें
url = "यहां लक्ष्य वेबपृष्ठ का पूरा URL दर्ज करें"
targetPage = urlopen (url)
htmlReader = targetPage.read ()। डीकोड ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
प्रिंट (webData.get_text ())

उदाहरण कोड चलाने से पहले, आपको लाइब्रेरी स्थापित करनी होगी। एक आभासी वातावरण बनाएँ अपनी कमांड लाइन से और चलकर लाइब्रेरी को स्थापित करें पाइप स्थापित करें beautifulsoup4.

2. वेब प्रपत्र

आप डेटा संग्रह के लिए ऑनलाइन फॉर्म का भी लाभ उठा सकते हैं। यह सबसे उपयोगी है जब आपके पास उन लोगों का लक्ष्य समूह होता है जिनसे आप डेटा इकट्ठा करना चाहते हैं।

वेब फ़ॉर्म भेजने का एक नुकसान यह है कि आप जितना चाहें उतना डेटा एकत्र नहीं कर सकते हैं। यह छोटे डेटा विज्ञान परियोजनाओं या ट्यूटोरियल के लिए बहुत आसान है, लेकिन आप बड़ी संख्या में अनाम लोगों तक पहुंचने की कोशिश कर रहे बाधाओं में भाग सकते हैं।

यद्यपि भुगतान किए गए ऑनलाइन डेटा संग्रह सेवाएं मौजूद हैं, वे व्यक्तियों के लिए अनुशंसित नहीं हैं, क्योंकि वे ज्यादातर महंगे हैं - सिवाय इसके कि आप परियोजना पर कुछ पैसा खर्च करने का मन नहीं करते हैं।

लोगों से डेटा एकत्र करने के लिए विभिन्न वेब फॉर्म हैं। उनमें से एक Google फ़ॉर्म है, जिसे आप पर जाकर एक्सेस कर सकते हैं form.google.com. आप ऐसा कर सकते हैं संपर्क जानकारी एकत्र करने के लिए Google फ़ॉर्म का उपयोग करें, जनसांख्यिकीय डेटा और अन्य व्यक्तिगत विवरण।

एक बार जब आप एक फॉर्म बनाते हैं, तो आपको केवल अपने लक्षित दर्शकों को मेल, एसएमएस, या जो भी उपलब्ध साधनों के माध्यम से लिंक भेजना होता है।

हालाँकि, Google फ़ॉर्म लोकप्रिय वेब रूपों का केवल एक उदाहरण है। वहाँ कई विकल्प हैं जो उत्कृष्ट डेटा संग्रहण कार्य भी करते हैं।

आप फेसबुक, लिंक्डइन, इंस्टाग्राम और ट्विटर जैसे सोशल मीडिया आउटलेट्स के माध्यम से भी डेटा एकत्र कर सकते हैं। सोशल मीडिया से डेटा प्राप्त करना किसी भी अन्य विधि की तुलना में थोड़ा अधिक तकनीकी है। यह पूरी तरह से स्वचालित है और इसमें विभिन्न एपीआई उपकरणों का उपयोग शामिल है।

सोशल मीडिया से डेटा निकालना मुश्किल हो सकता है क्योंकि यह अपेक्षाकृत असंगठित है और इसकी एक बड़ी मात्रा है। उचित रूप से व्यवस्थित, इस प्रकार का डेटासेट ऑनलाइन भावना विश्लेषण, बाजार रुझान विश्लेषण और ऑनलाइन ब्रांडिंग से जुड़े डेटा विज्ञान परियोजनाओं में उपयोगी हो सकता है।

उदाहरण के लिए, ट्विटर एक सोशल मीडिया डेटा स्रोत का एक उदाहरण है जहां आप इसके साथ बड़ी मात्रा में डेटासेट एकत्र कर सकते हैं चिमटी अजगर एपीआई पैकेज, जिसे आप के साथ स्थापित कर सकते हैं पाइप स्थापित टवेपी आज्ञा।

एक मूल उदाहरण के लिए, ट्विटर मुखपृष्ठ ट्वीट निकालने के लिए कोड का ब्लॉक इस तरह दिखता है:

आयात tweepy
आयात फिर से
myAuth = चिमटी। OAuthHandler (यहां customer_key पेस्ट करें, यहां customer_secret कुंजी पेस्ट करें)
Pers.set_access_token (पेस्ट एक्सेस_टोकन यहाँ, पेस्ट एक्सेस_टोकन_सेक्रेस्ट यहाँ)
प्रमाणिक = चिमटी। एपीआई (myAuth)
target_tweet = api.home_timeline ()
target_tweet में लक्ष्य के लिए:
प्रिंट (लक्ष्य। टेक्स्ट)

आप यात्रा कर सकते हैं docs.tweepy.org वेबसाइट का उपयोग करने के लिए चिमटी इसका उपयोग कैसे करें के बारे में अधिक जानकारी के लिए प्रलेखन। Twitter के API का उपयोग करने के लिए, आपको किसी हेडर के खाते में आवेदन करना होगा developer.twitter.com वेबसाइट।

डेटा इकट्ठा करने के लिए फेसबुक एक और शक्तिशाली सोशल मीडिया प्लेटफॉर्म है। यह फेसबुक ग्राफ एपीआई नामक एक विशेष एपीआई एंडपॉइंट का उपयोग करता है। यह एपीआई डेवलपर्स को फेसबुक प्लेटफॉर्म पर विशिष्ट उपयोगकर्ताओं के व्यवहार के बारे में डेटा एकत्र करने की अनुमति देता है। आप फेसबुक ग्राफ एपीआई प्रलेखन पर पहुँच सकते हैं Developers.facebook.com इसके बारे में अधिक जानने के लिए।

एपीआई के साथ सोशल मीडिया डेटा संग्रह की एक विस्तृत व्याख्या इस लेख के दायरे से परे है। यदि आप अधिक जानने में रुचि रखते हैं, तो आप उनके बारे में गहराई से ज्ञान के लिए प्रत्येक प्लेटफ़ॉर्म के प्रलेखन की जांच कर सकते हैं।

एपीआई एंडपॉइंट से कनेक्ट करने के लिए स्क्रिप्ट लिखने के अलावा, सोशल मीडिया डेटा जैसे थर्ड-पार्टी टूल इकट्ठा करना स्क्रैपिंग एक्सपर्ट और कई अन्य भी उपलब्ध हैं। हालाँकि, इनमें से अधिकांश वेब उपकरण एक मूल्य पर आते हैं।

4. आधिकारिक स्रोतों से प्री-मौजूदा डेटासेट का संग्रह

आप आधिकारिक स्रोतों से पहले से मौजूद डेटासेट एकत्र कर सकते हैं। इस पद्धति में आधिकारिक डेटा बैंकों का दौरा करना और उनसे सत्यापित डेटासेट डाउनलोड करना शामिल है। वेब स्क्रैपिंग और अन्य विकल्पों के विपरीत, यह विकल्प तेज है और इसके लिए बहुत कम या कोई तकनीकी ज्ञान नहीं है।

इस प्रकार के स्रोतों के डेटासेट आमतौर पर CSV, JSON, HTML, या Excel स्वरूपों में उपलब्ध होते हैं। आधिकारिक डेटा स्रोतों के कुछ उदाहरण हैं विश्व बैंक, UNData, और कई अन्य।

कुछ डेटा स्रोत सार्वजनिक डेटा को एक्सेस करने से रोकने के लिए वर्तमान डेटा को निजी बना सकते हैं। हालांकि, उनके अभिलेखागार डाउनलोड के लिए अक्सर उपलब्ध हैं।

आपकी मशीन लर्निंग प्रोजेक्ट के लिए अधिक आधिकारिक डेटासेट स्रोत

यह सूची आपको अपनी परियोजनाओं में काम करने के लिए विभिन्न प्रकार के डेटा प्राप्त करने के लिए एक अच्छा प्रारंभिक बिंदु देना चाहिए।

  • ईयू ओपन डाटा पोर्टल
  • कागल डेटासेट्स
  • Google डेटासेट खोज
  • डाटा हब
  • AWS पर ओपन डाटा की रजिस्ट्री
  • यूरोपीय सरकारी एजेंसी-डेटा और मैप्स
  • माइक्रोसॉफ्ट रिसर्च ओपन डेटा
  • GitHub पर बहुत बढ़िया सार्वजनिक डेटासेट रिपोजिटरी
  • डेटा। Gov: अमेरिकी सरकार के खुले डेटा का घर

इससे कई अधिक स्रोत हैं, और सावधानीपूर्वक खोज आपको अपने स्वयं के डेटा विज्ञान परियोजनाओं के लिए एकदम सही डेटा के साथ पुरस्कृत करेगा।

बेहतर परिणाम के लिए इन आधुनिक तकनीकों को मिलाएं

डेटा संग्रह थकाऊ हो सकता है जब कार्य के लिए उपलब्ध उपकरण सीमित या कठिन समझने के लिए होते हैं। जबकि पुराने और पारंपरिक तरीके अभी भी अच्छी तरह से काम करते हैं और कुछ मामलों में अपरिहार्य हैं, आधुनिक तरीके तेज और अधिक विश्वसनीय हैं।

हालांकि, एक एकल विधि पर निर्भर होने के बजाय, आपके डेटा को इकट्ठा करने के इन आधुनिक तरीकों के संयोजन से बेहतर परिणाम प्राप्त करने की क्षमता है।

ईमेल
5 डेटा एनालिटिक्स सॉफ्टवेयर टूल जिसे आप जल्दी सीख सकते हैं

डेटा एनालिटिक्स में पाने के लिए खोज रहे हैं? यहाँ कुछ उपकरण हैं जिन्हें आपको सीखना चाहिए।

संबंधित विषय
  • प्रोग्रामिंग
  • अजगर
  • बड़ा डेटा
  • मशीन लर्निंग
  • डेटा कटाई
  • डेटा विश्लेषण
लेखक के बारे में
इदोवु ओमीसोला (45 लेख प्रकाशित)

Idowu कुछ भी स्मार्ट तकनीक और उत्पादकता के बारे में भावुक है। अपने खाली समय में, वह कोडिंग के साथ चारों ओर खेलता है और जब वह ऊब जाता है, तो शतरंज खेलने के लिए स्विच करता है, लेकिन वह एक समय में एक बार दिनचर्या से अलग होना भी पसंद करता है। आधुनिक तकनीक के इर्द-गिर्द लोगों को दिखाने का उनका जुनून उन्हें और अधिक लिखने के लिए प्रेरित करता है।

Idowu Omisola से अधिक

हमारे न्यूज़लेटर की सदस्यता लें

टेक टिप्स, रिव्यू, फ्री ईबुक और एक्सक्लूसिव डील्स के लिए हमारे न्यूज़लेटर से जुड़ें!

एक और कदम…!

कृपया हमें आपके द्वारा भेजे गए ईमेल में अपने ईमेल पते की पुष्टि करें।

.