Google जैसे सर्च इंजन इंटरनेट को इतना शक्तिशाली बनाने का हिस्सा हैं। कुछ कीस्ट्रोक्स और एक बटन के क्लिक के साथ, आपके प्रश्न के सबसे प्रासंगिक उत्तर दिखाई देते हैं। लेकिन क्या आपने कभी सोचा है कि सर्च इंजन कैसे काम करता है? वेब क्रॉलर उत्तर का हिस्सा हैं।
तो, वेब क्रॉलर क्या है, और यह कैसे काम करता है?
वेब क्रॉलर क्या है?
जब आप किसी खोज इंजन में कुछ खोजते हैं, तो इंजन को सबसे अधिक प्रासंगिक परिणाम प्रदर्शित करने के लिए लाखों (या अरबों) वेब पेजों को तेजी से स्कैन करना पड़ता है। वेब क्रॉलर (स्पाइडर या सर्च इंजन बॉट के रूप में भी जाना जाता है) स्वचालित प्रोग्राम हैं जो इंटरनेट को "क्रॉल" करते हैं और आसानी से सुलभ तरीके से वेब पेजों के बारे में जानकारी संकलित करते हैं।
शब्द "क्रॉलिंग" उस तरीके को संदर्भित करता है जिस तरह से वेब क्रॉलर इंटरनेट को पार करते हैं। वेब क्रॉलर को "मकड़ियों" के रूप में भी जाना जाता है। यह नाम वेब को क्रॉल करने के तरीके से आता है—जैसे मकड़ियां अपने मकड़ी के जाले पर रेंगती हैं।
वेब क्रॉलर जितना संभव हो उतने वेब पेजों पर डेटा का आकलन और संकलन करते हैं। वे ऐसा इसलिए करते हैं ताकि डेटा आसानी से सुलभ और खोजा जा सके, इसलिए वे सर्च इंजन के लिए इतने महत्वपूर्ण क्यों हैं।
एक वेब क्रॉलर को संपादक के रूप में सोचें जो पुस्तक के अंत में अनुक्रमणिका संकलित करता है। अनुक्रमणिका का कार्य पाठक को यह सूचित करना है कि पुस्तक में प्रत्येक प्रमुख विषय या वाक्यांश कहाँ दिखाई देता है। इसी तरह, एक वेब क्रॉलर एक अनुक्रमणिका बनाता है जिसका उपयोग खोज इंजन किसी खोज क्वेरी पर प्रासंगिक जानकारी को शीघ्रता से खोजने के लिए करता है।
खोज अनुक्रमण क्या है?
जैसा कि हमने उल्लेख किया है, खोज अनुक्रमण एक पुस्तक के पीछे सूचकांक को संकलित करने के लिए तुलनीय है। एक तरह से सर्च इंडेक्सिंग इंटरनेट का एक सरलीकृत नक्शा बनाने जैसा है। जब कोई खोज इंजन से कोई प्रश्न पूछता है, तो खोज इंजन उसे अपनी अनुक्रमणिका के माध्यम से चलाता है, और सबसे प्रासंगिक पृष्ठ पहले दिखाई देते हैं।
लेकिन, सर्च इंजन को कैसे पता चलता है कि कौन से पेज प्रासंगिक हैं?
खोज अनुक्रमण मुख्य रूप से दो चीजों पर केंद्रित है: पृष्ठ पर पाठ और पृष्ठ का मेटाडेटा। पाठ वह सब कुछ है जो आप एक पाठक के रूप में देखते हैं, जबकि मेटाडेटा पृष्ठ निर्माता द्वारा उस पृष्ठ इनपुट के बारे में जानकारी है, "मेटा टैग" के रूप में जाना जाता है। मेटा टैग में पृष्ठ विवरण और मेटा शीर्षक जैसी चीज़ें शामिल होती हैं, जो खोज में दिखाई देती हैं परिणाम।
Google जैसे सर्च इंजन वेबपेज पर सभी टेक्स्ट को इंडेक्स करेंगे (कुछ मामलों में "द" और "ए" जैसे कुछ शब्दों को छोड़कर)। फिर, जब कोई शब्द खोज इंजन में खोजा जाता है, तो वह सबसे अधिक प्रासंगिक पृष्ठ के लिए अपनी अनुक्रमणिका को तेजी से परिमार्जन करेगा।
वेब क्रॉलर कैसे काम करता है?
जैसा कि नाम से पता चलता है, एक वेब क्रॉलर काम करता है। वे एक ज्ञात वेब पेज या यूआरएल से शुरू होते हैं और उस यूआरएल पर प्रत्येक पेज को इंडेक्स करते हैं (ज्यादातर समय, वेबसाइट मालिक सर्च इंजन से विशेष यूआरएल क्रॉल करने का अनुरोध करते हैं)। जैसे ही उन्हें उन पृष्ठों पर हाइपरलिंक मिलते हैं, वे उन पृष्ठों की "टू-डू" सूची संकलित करेंगे, जिन्हें वे आगे क्रॉल करेंगे। वेब क्रॉलर इसे अनिश्चित काल तक जारी रखेगा, विशेष नियमों का पालन करते हुए कि किन पृष्ठों को क्रॉल करना है और किसको अनदेखा करना है।
वेब क्रॉलर इंटरनेट पर हर पेज को क्रॉल नहीं करते हैं। वास्तव में, यह अनुमान लगाया गया है कि इंटरनेट का केवल 40-70% ही खोज अनुक्रमित किया गया है (जो अभी भी अरबों पृष्ठ है)। कई वेब क्रॉलर उन पृष्ठों पर ध्यान केंद्रित करने के लिए डिज़ाइन किए गए हैं जिन्हें अधिक "आधिकारिक" माना जाता है। आधिकारिक पृष्ठ मुट्ठी भर मानदंडों में फिट होते हैं जिससे उनके उच्च-गुणवत्ता वाले या लोकप्रिय होने की अधिक संभावना होती है जानकारी। वेब क्रॉलर को भी लगातार पृष्ठों को फिर से देखने की आवश्यकता होती है क्योंकि वे अपडेट, हटाए या स्थानांतरित किए जाते हैं।
एक अंतिम कारक जो नियंत्रित करता है कि वेब क्रॉलर किन पृष्ठों को क्रॉल करेगा, वह है robots.txt प्रोटोकॉल या रोबोट बहिष्करण प्रोटोकॉल। एक वेब पेज का सर्वर एक robots.txt फ़ाइल को होस्ट करेगा जो किसी भी वेब क्रॉलर या पेज तक पहुंचने वाले अन्य प्रोग्राम के नियमों को बताता है। फ़ाइल विशेष पृष्ठों को क्रॉल होने से रोक देगी और क्रॉलर किन लिंक का अनुसरण कर सकता है। robots.txt फ़ाइल का एक उद्देश्य वेबसाइट के सर्वर पर बॉट्स द्वारा डाले गए दबाव को सीमित करना है।
वेब क्रॉलर को आपकी वेबसाइट के कुछ पेजों तक पहुंचने से रोकने के लिए, आप "अस्वीकार करें" टैग को के माध्यम से जोड़ सकते हैं robots.txt फ़ाइल या जोड़ें नोइंडेक्स विचाराधीन पृष्ठ पर मेटा टैग।
क्रॉलिंग और स्क्रैपिंग के बीच अंतर क्या है?
वेब स्क्रैपिंग उस वेबसाइट की अनुमति के बिना किसी वेबसाइट से डेटा डाउनलोड करने के लिए बॉट्स का उपयोग है। अक्सर, वेब स्क्रैपिंग का उपयोग दुर्भावनापूर्ण कारणों से किया जाता है। वेब स्क्रैपिंग अक्सर विशिष्ट वेबसाइटों से सभी HTML कोड लेता है, और अधिक उन्नत स्क्रैपर भी CSS और जावास्क्रिप्ट तत्वों को ले लेंगे। वेब स्क्रैपिंग टूल विशेष विषयों (जैसे, एक उत्पाद सूची) के बारे में जानकारी को जल्दी और आसानी से संकलित करने के लिए इस्तेमाल किया जा सकता है, लेकिन यह भी घूम सकता है ग्रे और अवैध क्षेत्र.
दूसरी ओर, वेब क्रॉलिंग, अनुमति के साथ वेबसाइटों पर सूचनाओं का अनुक्रमण है ताकि वे खोज इंजन में आसानी से दिखाई दे सकें।
वेब क्रॉलर उदाहरण
प्रत्येक प्रमुख खोज इंजन में एक या अधिक वेब क्रॉलर होते हैं। उदाहरण के लिए:
- Google के पास Googlebot. है
- बिंग के पास बिंगबोट है
- DuckDuckGo में DuckDuckBot है।
Google जैसे बड़े खोज इंजन में अलग-अलग फ़ोकस के लिए विशिष्ट बॉट होते हैं, जिनमें Googlebot छवियाँ, Googlebot वीडियो और AdsBot शामिल हैं।
वेब क्रॉलिंग SEO को कैसे प्रभावित करता है?
यदि आप चाहते हैं कि आपका पृष्ठ खोज इंजन परिणामों में दिखाई दे, तो पृष्ठ वेब क्रॉलर के लिए सुलभ होना चाहिए। आपके वेबसाइट सर्वर के आधार पर, आप क्रॉलिंग की एक विशेष आवृत्ति आवंटित करना चाह सकते हैं, क्रॉलर के लिए कौन से पृष्ठ स्कैन करने हैं, और वे आपके सर्वर पर कितना दबाव डाल सकते हैं।
मूल रूप से, आप चाहते हैं कि वेब क्रॉलर सामग्री से भरे हुए पृष्ठों पर बेहतर हों, लेकिन धन्यवाद संदेश, व्यवस्थापक पृष्ठ और आंतरिक खोज परिणामों जैसे पृष्ठों पर नहीं।
आपकी उंगलियों पर जानकारी
हम में से अधिकांश के लिए खोज इंजन का उपयोग करना दूसरा स्वभाव बन गया है, फिर भी हम में से अधिकांश को पता नहीं है कि वे कैसे काम करते हैं। वेब क्रॉलर एक प्रभावी खोज इंजन के मुख्य भागों में से एक हैं और हर दिन लाखों महत्वपूर्ण वेबसाइटों के बारे में जानकारी को प्रभावी ढंग से अनुक्रमित करते हैं। वे वेबसाइट मालिकों, आगंतुकों और खोज इंजनों के लिए समान रूप से एक अमूल्य उपकरण हैं।
आप सोच सकते हैं कि एप्लिकेशन प्रोग्रामर और वेब डेवलपर एक ही काम करते हैं, लेकिन यह सच्चाई से बहुत दूर है। यहाँ प्रोग्रामर और वेब डेवलपर्स के बीच महत्वपूर्ण अंतर हैं।
आगे पढ़िए
- प्रौद्योगिकी की व्याख्या
- वेब खोज
- गूगल खोज
- सर्च ट्रिक्स

जेक हार्फील्ड पर्थ, ऑस्ट्रेलिया में स्थित एक स्वतंत्र लेखक हैं। जब वह नहीं लिख रहा होता है, तो वह आमतौर पर झाड़ियों में स्थानीय वन्यजीवों की तस्वीरें खींचता रहता है। आप उनसे www.jakeharfield.com पर मिल सकते हैं
हमारे न्यूज़लेटर की सदस्यता लें
तकनीकी युक्तियों, समीक्षाओं, निःशुल्क ई-पुस्तकों और अनन्य सौदों के लिए हमारे न्यूज़लेटर से जुड़ें!
सब्सक्राइब करने के लिए यहां क्लिक करें