इस गाइड की मदद से अपनी वेबसाइट को OpenAI के क्रॉलर्स द्वारा खराब होने से रोकें।
हालाँकि उपयोगकर्ता चैटजीपीटी को वर्तमान में मौजूद जानकारी की विशाल मात्रा के कारण पसंद करते हैं, लेकिन वेबसाइट मालिकों के बारे में ऐसा नहीं कहा जा सकता है।
OpenAI का ChatGPT वेबसाइटों को स्क्रैप करने के लिए क्रॉलर का उपयोग करता है, लेकिन यदि आप एक वेबसाइट के मालिक हैं, और आप नहीं चाहते कि OpenAI का क्रॉलर आपकी वेबसाइट तक पहुंचे, तो इसे रोकने के लिए आप यहां कुछ चीजें कर सकते हैं।
OpenAI क्रॉलिंग कैसे काम करती है?
ए वेब क्रॉलर (स्पाइडर या सर्च इंजन बॉट के रूप में भी जाना जाता है) एक स्वचालित प्रोग्राम है जो जानकारी के लिए इंटरनेट को स्कैन करता है। फिर यह उस जानकारी को इस तरह संकलित करता है कि आपके खोज इंजन के लिए उस तक पहुंच आसान हो।
वेब क्रॉलर प्रत्येक प्रासंगिक यूआरएल के प्रत्येक पृष्ठ को अनुक्रमित करते हैं, आमतौर पर उन वेबसाइटों पर ध्यान केंद्रित करते हैं जो आपकी खोज क्वेरी के लिए अधिक प्रासंगिक हैं। उदाहरण के लिए, मान लें कि आप गूगल पर एक विशेष विंडोज़ त्रुटि खोज रहे हैं। आपके खोज इंजन का वेब क्रॉलर उन वेबसाइटों के सभी यूआरएल को स्कैन करेगा जिन्हें वह विंडोज़ त्रुटियों के विषय पर अधिक आधिकारिक मानता है।
OpenAI के वेब क्रॉलर को GPTBot कहा जाता है, और इसके अनुसार OpenAI का दस्तावेज़ीकरणजीपीटीबॉट को अपनी वेबसाइट तक पहुंच प्रदान करने से एआई मॉडल को सुरक्षित और अधिक सटीक बनाने के लिए प्रशिक्षित करने में मदद मिल सकती है, और यह एआई मॉडल की क्षमताओं का विस्तार करने में भी मदद कर सकता है।
OpenAI को अपनी वेबसाइट क्रॉल करने से कैसे रोकें
अधिकांश अन्य वेब क्रॉलर की तरह, GPTBot को वेबसाइट में संशोधन करके आपकी वेबसाइट तक पहुंचने से रोका जा सकता है robots.txt प्रोटोकॉल (रोबोट बहिष्करण प्रोटोकॉल के रूप में भी जाना जाता है)। यह .txt फ़ाइल वेबसाइट के सर्वर पर होस्ट की जाती है, और यह नियंत्रित करती है कि वेब क्रॉलर और अन्य स्वचालित प्रोग्राम आपकी वेबसाइट पर कैसे व्यवहार करते हैं।
यहां क्या है इसकी एक छोटी सूची दी गई है रोबोट.txt फ़ाइल यह कर सकती है:
- यह GPTBot को वेबसाइट तक पहुंचने से पूरी तरह से ब्लॉक कर सकता है।
- यह किसी URL के केवल कुछ पेजों को GPTBot द्वारा एक्सेस होने से रोक सकता है।
- यह GPTBot को बता सकता है कि वह किन लिंक्स का अनुसरण कर सकता है और किनका नहीं।
GPTBot आपकी वेबसाइट पर क्या कर सकता है, इसे नियंत्रित करने का तरीका यहां बताया गया है:
GPTBot को आपकी वेबसाइट तक पहुँचने से पूरी तरह से रोकें
- robot.txt फ़ाइल सेट करें, और फिर इसे किसी भी टेक्स्ट संपादन टूल से संपादित करें।
- अपनी साइट पर GPTBot जोड़ें robots.txt निम्नलिखित नुसार:
User-agent: GPTBot
Disallow: /
केवल कुछ पेजों को GPTBot द्वारा एक्सेस होने से रोकें
- स्थापित करें रोबोट.txt फ़ाइल बनाएं, और फिर इसे अपने पसंदीदा टेक्स्ट संपादन टूल से संपादित करें।
- अपनी साइट पर GPTBot जोड़ें robots.txt निम्नलिखित नुसार:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
हालाँकि, यह ध्यान रखें कि परिवर्तन रोबोट.txt फ़ाइल एक पूर्वव्यापी समाधान नहीं है, और GPTBot द्वारा आपकी वेबसाइट से पहले ही एकत्रित की गई कोई भी जानकारी पुनर्प्राप्त नहीं की जा सकेगी।
OpenAI वेबसाइट मालिकों को क्रॉलिंग से ऑप्ट-आउट करने की अनुमति देता है
जब से एआई मॉडल को प्रशिक्षित करने के लिए क्रॉलर का उपयोग किया जाने लगा है, तब से वेबसाइट मालिक अपने डेटा को निजी रखने के तरीके ढूंढ रहे हैं।
कुछ लोगों को डर है कि एआई मॉडल मूल रूप से उनके काम को चुरा रहे हैं, यहां तक कि कम वेबसाइट विज़िट के लिए भी इस तथ्य को जिम्मेदार ठहराया जा रहा है कि अब उपयोगकर्ताओं को उनकी वेबसाइट पर आए बिना ही उनकी जानकारी मिल जाती है।
कुल मिलाकर, आप एआई चैटबॉट्स को अपनी वेबसाइटों को स्कैन करने से पूरी तरह से रोकना चाहते हैं या नहीं, यह पूरी तरह से आपकी पसंद है।