वेब स्क्रैपिंग में वेबसाइटों या पृष्ठों से डेटा के रूप में जानकारी का संग्रह शामिल है। यद्यपि आपका कोई सचेत कार्य नहीं हो सकता है, फिर भी आपने जानकारी एकत्रित करते हुए वेब को एक या दूसरे तरीके से स्क्रैप कर दिया है। लेकिन यह आमतौर पर सूक्ष्म है।
वेब स्क्रैपिंग या स्क्रीन स्क्रैपिंग आम तौर पर एक उद्देश्यपूर्ण कार्य है, और पेशेवर विशाल डेटा प्राप्त करने के लिए डिज़ाइन को स्वचालित करते हैं। चाहे एक वेबसाइट पर ग्रंथों को मैन्युअल रूप से कॉपी करके, समर्पित टूल का उपयोग करके, या वेब स्क्रैपिंग स्क्रिप्ट लिखने से, वेब स्क्रैपर्स कभी-कभी एक वेबसाइट पर कई अनुरोधों को एक साथ करके मुश्किल से टकराते हैं।
लेकिन जब कई व्यवसायों ने प्रतिस्पर्धात्मक लाभ उठाने के लिए वेब स्क्रैपिंग का लाभ उठाया है, तो क्या यह वास्तव में कानूनी है?
कौन सी वेबसाइटें और आपको नहीं खुरचनी चाहिए?
इंटरनेट सूचना का एक पूल है, जो लोगों को पुराने और वास्तविक समय डेटा तक पहुंच प्रदान करता है। वेब स्क्रैपिंग या स्क्रीन स्क्रैपिंग अब कुछ समय के लिए हो गया है। लेकिन आपको इसका कितना उपयोग करना चाहिए, और आप किन वेबसाइटों को परिमार्जन कर सकते हैं?
कुछ वेबसाइटें वेब क्रॉलर या स्क्रीन स्क्रेपर्स के साथ कड़ी हैं और उन्हें पूरी तरह से ब्लॉक कर देती हैं। इसलिए यह स्पष्ट रूप से स्पष्ट है कि आपको ऐसी वेबसाइटों को नहीं देखना चाहिए। लेकिन लोग फिर भी ऐसा करते हैं।
दुर्भाग्य से, वहाँ शायद ही कुछ और ऐसी साइटों को रोकने के लिए कर सकते हैं इसके अलावा उनकी खामियों को दूर करने।
इससे पहले कि आप किसी वेबसाइट को खंगालें, आदर्श रूप से, आपको यह देखना चाहिए कि वह क्रॉलिंग की अनुमति देती है या नहीं। आमतौर पर, आप साइट के robots.txt फ़ाइल की जांच करके यह पता लगा सकते हैं। आप "[वेबसाइट URL] /robots.txt" लिखकर ऐसा कर सकते हैं।
Robots.txt आमतौर पर विभिन्न क्रॉलर या उपयोगकर्ता एजेंटों के लिए नियम निर्धारित करता है। हालाँकि, ये नियम अलग-अलग हैं, जिसमें शामिल वेबसाइट पर निर्भर करता है। जबकि कुछ साइटें सभी पृष्ठों पर क्रॉल करने की अनुमति देती हैं, कुछ उन पृष्ठों को निर्दिष्ट करते हैं जो एक बॉट क्रॉल कर सकते हैं, और कुछ क्रॉलर्स को बाह्य रूप से क्रॉल करते हैं।
एक वेबसाइट जो सभी उपयोगकर्ता एजेंटों को सभी पेजों को क्रॉल करने से रोकती है, आमतौर पर निम्नलिखित नियम निर्धारित करती है:
उपभोक्ता अभिकर्ता: *
अस्वीकार करें: /
एक robots.txt फ़ाइल जो सभी बॉट्स को कुछ निर्देशिकाओं या पृष्ठों को क्रॉल करने से रोकती है जो आमतौर पर इस तरह दिखाई देती हैं:
उपभोक्ता अभिकर्ता: *
अस्वीकार करें: / पृष्ठ 1 पर URL
अस्वीकृत करें: / URL से पृष्ठ 2 पर
यदि robots.txt उस पृष्ठ को अस्वीकार नहीं करता है जिसे आप क्रॉल करना चाहते हैं, तो आप संभवतः इसे परिमार्जन कर सकते हैं। अन्यथा, आपको प्रशासन की सहमति लेनी चाहिए। वे आपको पहुंच प्रदान कर सकते हैं।
इसके अतिरिक्त, कुछ वेबसाइट स्पष्ट रूप से बताती हैं कि वे अपने उपयोग की शर्तों में क्रॉलिंग की अनुमति देते हैं या नहीं। कुछ भी अपने robots.txt के शीर्ष पर यह बताते हैं। हमेशा देखें कि आप सही काम कर रहे हैं या नहीं।
कैसे वेब स्क्रैपिंग दुरुपयोग किया जा रहा है
इसलिए यदि आपने वेबसाइटों या ऐसे लोगों से स्पैम ईमेल या एसएमएस प्राप्त किए हैं, जिन्हें आपने कभी अपनी व्यक्तिगत जानकारी के साथ आपूर्ति नहीं की है, तो शायद आपको कहीं न कहीं किसी न किसी तरह से स्क्रैप किया गया है। और ज्यादातर, यह आपके सोशल मीडिया हैंडल में से एक है।
उस ने कहा, वेब स्क्रैपिंग कभी-कभी केवल उस डेटा को इकट्ठा करने से ज्यादा होता है जो सामने वाले छोर तक फैलता है। यदि दुर्भावनापूर्ण तरीके से उपयोग किया जाता है, तो यह व्यक्तिगत और वर्गीकृत जानकारी के रिसाव के परिणामस्वरूप हो सकता है।
हालांकि अधिकांश सोशल मीडिया प्लेटफॉर्म इस पर आधारित हैं, रेंगने वाले बॉट्स अभी भी लोगों की प्रोफाइल तक पहुंचते हैं, और उनकी संपर्क जानकारी लीक और स्क्रैप हो जाती है।
मिसाल के तौर पर, फ़ेसबुक में पिछले कुछ समय से उन भेद्यताओं के बारे में बताया गया है जो उपयोगकर्ताओं की संपर्क जानकारी को लीक करती हैं, भले ही उपयोगकर्ता उन्हें निजी रखते हों।
इसी तरह, लिंक्डइन को हाल ही में एक सुरक्षा उल्लंघन का सामना करना पड़ा, जिसके परिणामस्वरूप व्यक्तिगत डेटा लीक हो गया 500 मिलियन से अधिक खातों से संबंधित है. नतीजतन, प्रोफ़ाइल मालिकों की सहमति के बिना कई ईमेल पते और फोन नंबर साझा करने के परिणामस्वरूप उस भेद्यता का पता चला।
क्या किसी वेबसाइट को खंगालना अवैध है?
वेब स्क्रैपिंग की वैधता पर कभी कोई निष्कर्ष नहीं निकला है। इसके बजाय, ध्यान इस बात पर है कि क्रॉलर एक केस-दर-मामला कैसे काम करता है और वे क्या हासिल करने के लिए एकत्रित डेटा का उपयोग करते हैं।
इसलिए इसकी वैधता पर निष्कर्ष निकालने के बजाय, जब दुर्भावनापूर्ण तरीके से स्क्रैपिंग, अवैध है। लेकिन अगर विवेकपूर्ण तरीके से किया जाए, तो यह अवैध नहीं है।
लेकिन जैसा कि अपेक्षित था, सोशल मीडिया डेटा के स्क्रैपिंग और उपयोग पर अधिक कठोर नीति लगती है क्योंकि उपयोगकर्ताओं की गोपनीयता इतनी महत्वपूर्ण है। हालांकि, यह सब अभी भी उबलता है कि लोग डेटा को कैसे परिमार्जन करते हैं।
इंटरनेट और सामाजिक मीडिया कानून ब्लॉग हाईक लैब्स के मामले का विश्लेषण किया है, एक डेटा स्क्रेपिंग कंपनी जिसने 2019 में लिंक्डइन के खिलाफ मुकदमा जीता था क्योंकि उसने सार्वजनिक रूप से उपलब्ध लिंक्डइन उपयोगकर्ताओं के डेटा को स्क्रैप करने से हाईक्यू लैब्स को ब्लॉक करने की कोशिश की थी।
हाईक लैब्स के साथ दावा किया गया है कि कंप्यूटर फ्रॉड एंड एब्यूज एक्ट (सीएफएए) केवल अनधिकृत पहुंच को प्रतिबंधित करता है निर्णय ने पुष्टि की कि लिंक्डइन का डेटा सार्वजनिक रूप से उपलब्ध था, इसलिए किसी ने भी उन्हें स्क्रैप किया क्योंकि वे ऐसा कर रहे थे सुलभ।
इसके अलावा, hiQ लैब्स ने कंपनियों को एनालिटिक्स समाधान प्रदान करने के लिए केवल स्क्रैप किए गए डेटा का उपयोग किया है - ताकि वे बेहतर भर्ती निर्णय ले सकें।
इसके विपरीत, फेसबुक ने हाल ही में क्रोम एक्सटेंशन डेवलपर्स के खिलाफ मुकदमा दायर किया जिन्होंने फेसबुक यूजर्स की प्रोफाइल को उनकी सहमति के बिना स्क्रैप किया।
इसी तरह, ए कॉपीकैट साइट पर फेसबुक द्वारा मुकदमा दायर किया गया था कई Instagram उपयोगकर्ताओं की प्रोफ़ाइल जानकारी को स्क्रैप करने और फिर क्लोन बनाने के लिए इनका उपयोग करने के लिए। उस रिपोर्ट के अनुसार, फेसबुक तब अपराधी के खिलाफ एक स्थायी अदालत निषेधाज्ञा प्राप्त करने के लिए आगे बढ़ा।
ये कुछ मामले हैं जहां लोगों ने अवैध रूप से वेब स्क्रैपिंग का इस्तेमाल किया होगा। उक्त कंपनियों ने अपने उपयोगकर्ताओं की सहमति के बिना, धोखे से फेसबुक उपयोगकर्ताओं का डेटा एकत्र किया। इसलिए इसने गोपनीयता नीतियों का उल्लंघन किया।
इसलिए, जबकि वेब स्क्रैपिंग उस साइट को कुंठित कर सकती है जिससे उसे डेटा मिलता है, कोई भी सामान्य नियम वर्तमान में लोगों को वह नहीं मिलता है जो वे चाहते हैं, जब तक वे इंटरनेट कानूनों का सीधा उल्लंघन नहीं करते हैं।
क्या वेब स्क्रैपिंग हैकिंग का पर्याय है?
वेब स्क्रैपिंग के आसपास कुछ मिथक हैं। इनमें से एक विश्वास है कि एक वेबसाइट को स्क्रैप करने का मतलब है कि आपने इसे हैक कर लिया है। हालांकि हैकिंग अंततः डेटा को स्क्रैप करने के लिए नेतृत्व कर सकता है, दावा है कि शब्द का अर्थ है कि किसी वेबसाइट को हैक करना सही नहीं है।
वेब स्क्रैपिंग के उपयोग को शामिल कर सकते हैं रेंगने या खुरचने के उपकरण समर्पित हैं, आवेदन प्रोग्रामिंग इंटरफेस (एपीआई), या वेब स्क्रैपिंग स्क्रिप्ट एक वेबसाइट से प्रदान किए गए डेटा प्राप्त करने के लिए। हैक करने के विपरीत, यह न तो उस वेबसाइट से छेड़छाड़ करता है, जो न तो उसके उपयोगकर्ताओं के अनुभव को बाधित करता है और न ही बाधित करता है।
सम्बंधित: वेब स्क्रैपिंग क्या है? वेबसाइट से डाटा कैसे कलेक्ट करें
इसलिए जब हैकिंग में अनधिकृत पहुंच शामिल होती है, तो आमतौर पर एक वेबसाइट के डेटाबेस में, वेब स्क्रैपिंग केवल लक्ष्य डेटा जो पहले से ही सामने के छोर पर दिखाई देता है। हालांकि लोग वेब स्क्रैपिंग का दुर्भावनापूर्ण तरीके से उपयोग कर सकते हैं, यह अभी भी हैकिंग का पर्याय नहीं है।
इसके अलावा, वेब स्क्रैपिंग के विपरीत, जानबूझकर और अनैतिक हैकिंग अवैध है।
वेब स्क्रैपिंग के सकारात्मक क्या हैं?
वेब स्क्रैपिंग में कई सकारात्मकताएं हैं, और यहां तक कि कुछ टेक कंपनियां अब एपीआई के माध्यम से अपना डेटा मुफ्त में देती हैं। यह जानकारी आमतौर पर व्यावसायिक रुझानों का आकलन करने और निर्णय लेने के लिए पर्याप्त नहीं है।
इसलिए कंपनियां अब प्रथाओं को सुधारने और बिक्री को बढ़ाने के लिए वेब को स्क्रैप करके अधिक डेटा प्राप्त करती हैं। इसके अतिरिक्त, डेटा वैज्ञानिक स्क्रीन स्क्रैपिंग के माध्यम से एकत्र किए गए डेटा के साथ मशीन लर्निंग एल्गोरिदम फ़ीड करते हैं।
इस तरह के डेटा छवि मान्यता, भावना विश्लेषण के लिए सादे ग्रंथों, या बाजार खुफिया और उपभोक्ता व्यवहार विश्लेषण के लिए प्रत्यक्ष उत्पाद डेटा में उपयोग किए जाने वाले चित्र हो सकते हैं।
सम्बंधित: अपने मशीन लर्निंग प्रोजेक्ट के लिए डेटासेट पाने के अनोखे तरीके
इसलिए वेब स्क्रैपिंग और भी अधिक उपयोगी है क्योंकि यदि आपके पास अपने प्रतियोगी की जानकारी तक पहुंच नहीं है, तो आप उन्हें हरा सकते हैं।
जबकि कुछ साइटें वेब स्क्रैपर्स, कुछ, यहां तक कि ई-कॉमर्स सेवाओं, पर भी ध्यान केंद्रित करती हैं, यदि आप उनके डेटा को खुरचते हैं या नहीं। ईबे और सेल्सफोर्स जैसे वेब दिग्गजों ने 2000 में अपने एपीआई को बंद कर दिया, जिससे प्रोग्रामर पहली बार सार्वजनिक डेटा तक पहुंच बना सके।
आप वास्तव में वेब खुरचनी चाहिए?
हमने स्थापित किया है कि सही तरीके से किए जाने पर वेब स्क्रैपिंग अवैध नहीं है। लेकिन आप जो डेटा खुरचते हैं, उसके साथ क्या करते हैं यह भी एक चिंता का विषय है। इसलिए इसका दुरुपयोग करने के बजाय, इसका उपयोग अधिक जानकारी प्राप्त करने में करें, जो आपकी और दूसरों की सूचना देने में मदद करें।
हालांकि, एक कौशल के रूप में वेब स्क्रैपिंग आपको इंटरनेट डेटा के बड़े हिस्से तक पहुंच प्रदान करता है, जो आपको या आपकी कंपनी को व्यावसायिक आला से ऊपर रहने में मदद कर सकता है। एक डेटा वैज्ञानिक के रूप में, यह आपके दायरे को भी विस्तृत करता है और आपके कोडिंग और तकनीकी कौशल में सुधार करता है।
उदाहरण के लिए, पायथन प्रोग्रामिंग भाषाओं में से एक है, जो आपको एक वेबसाइट को अपने ब्यूटीफुल सूप लाइब्रेरी या स्क्रैपी फ्रेमवर्क के साथ आसानी से परिमार्जन करने में मदद करती है।
वेब स्क्रैपिंग में रुचि रखते हैं? यहां बताया गया है कि सुंदर सूप पायथन पुस्तकालय के साथ सामग्री और अधिक के लिए एक वेबसाइट को कैसे परिमार्जन करना है।
आगे पढ़िए
- सुरक्षा
- प्रोग्रामिंग
- ऑनलाइन सुरक्षा
- वेब स्क्रेपिंग
Idowu कुछ भी स्मार्ट तकनीक और उत्पादकता के बारे में भावुक है। अपने खाली समय में, वह कोडिंग के साथ चारों ओर खेलता है और जब वह ऊब जाता है, तो शतरंज खेलने के लिए स्विच करता है, लेकिन वह एक समय में एक बार दिनचर्या से अलग होना भी पसंद करता है। आधुनिक तकनीक के इर्द-गिर्द लोगों को दिखाने का उनका जुनून उन्हें और अधिक लिखने के लिए प्रेरित करता है।
हमारे न्यूज़लेटर की सदस्यता
टेक टिप्स, रिव्यू, फ्री ईबुक और एक्सक्लूसिव डील्स के लिए हमारे न्यूज़लेटर से जुड़ें!
एक और क़दम…!
कृपया हमें आपके द्वारा भेजे गए ईमेल में अपने ईमेल पते की पुष्टि करें।