सामग्री के लिए एआई चैटबॉट द्वारा आपकी वेबसाइट को नष्ट करने के बारे में चिंतित हैं? सौभाग्य से, आप उन्हें ऐसा करने से रोक सकते हैं। ऐसे।

जैसा कि हालात हैं, एआई चैटबॉट्स के पास आपकी वेबसाइट को खंगालने और आपकी अनुमति के बिना उसकी सामग्री का उपयोग करने का मुफ्त लाइसेंस है। क्या आप इस बात से चिंतित हैं कि आपकी सामग्री ऐसे उपकरणों द्वारा नष्ट कर दी जा रही है?

अच्छी खबर यह है कि आप एआई टूल्स को अपनी वेबसाइट तक पहुंचने से रोक सकते हैं, लेकिन कुछ चेतावनी भी हैं। यहां, हम आपको दिखाते हैं कि अपनी वेबसाइट के लिए robots.txt फ़ाइल का उपयोग करके बॉट्स को कैसे ब्लॉक किया जाए, साथ ही ऐसा करने के फायदे और नुकसान भी बताए गए हैं।

एआई चैटबॉट आपकी वेब सामग्री तक कैसे पहुंचते हैं?

एआई चैटबॉट्स को कई डेटासेट का उपयोग करके प्रशिक्षित किया जाता है, जिनमें से कुछ ओपन-सोर्स और सार्वजनिक रूप से उपलब्ध हैं। उदाहरण के लिए, GPT3 को पाँच डेटासेट का उपयोग करके प्रशिक्षित किया गया था OpenAI द्वारा प्रकाशित एक शोध पत्र:

  1. सामान्य क्रॉल (प्रशिक्षण में 60% भार)
  2. WebText2 (प्रशिक्षण में 22% भार)
  3. पुस्तकें1 (प्रशिक्षण में 8% भार)
  4. पुस्तकें2 (प्रशिक्षण में 8% भार)
  5. विकिपीडिया (प्रशिक्षण में 3% भार)
instagram viewer

सामान्य क्रॉल इसमें 2008 से एकत्र की गई वेबसाइटों से पेटाबाइट्स (हजारों टीबी) डेटा शामिल है, ठीक उसी तरह जैसे Google का खोज एल्गोरिदम वेब सामग्री को क्रॉल करता है। WebText2 OpenAI द्वारा बनाया गया एक डेटासेट है, जिसमें कम से कम तीन अपवोट्स के साथ Reddit पोस्ट से जुड़े लगभग 45 मिलियन वेब पेज शामिल हैं।

इसलिए, चैटजीपीटी के मामले में, एआई बॉट आपके वेब पेजों तक सीधे पहुंच और क्रॉल नहीं कर रहा है - वैसे भी अभी तक नहीं। हालाँकि, OpenAI का चैटजीपीटी-होस्टेड वेब ब्राउज़र की घोषणा ने चिंता जताई है कि इसमें बदलाव हो सकता है।

इस बीच, वेबसाइट मालिकों को अन्य एआई चैटबॉट्स पर नजर रखनी चाहिए, क्योंकि उनमें से अधिक बाजार में आ गए हैं। बार्ड इस क्षेत्र का दूसरा बड़ा नाम है और इसके बारे में बहुत कम जानकारी है इसे प्रशिक्षित करने के लिए डेटासेट का उपयोग किया जा रहा है. जाहिर है, हम जानते हैं कि Google के सर्च बॉट लगातार वेब पेजों को क्रॉल कर रहे हैं, लेकिन इसका मतलब यह नहीं है कि बार्ड के पास उसी डेटा तक पहुंच है।

कुछ वेबसाइट मालिक चिंतित क्यों हैं?

वेबसाइट मालिकों के लिए सबसे बड़ी चिंता यह है कि चैटजीपीटी, बार्ड और बिंग चैट जैसे एआई बॉट उनकी सामग्री का अवमूल्यन करते हैं। एआई बॉट अपनी प्रतिक्रियाएं उत्पन्न करने के लिए मौजूदा सामग्री का उपयोग करते हैं, लेकिन उपयोगकर्ताओं के लिए मूल स्रोत तक पहुंचने की आवश्यकता को भी कम करते हैं। उपयोगकर्ता जानकारी तक पहुंचने के लिए वेबसाइटों पर जाने के बजाय, अपनी आवश्यक जानकारी का सारांश तैयार करने के लिए Google या Bing का उपयोग कर सकते हैं।

जब खोज में एआई चैटबॉट की बात आती है, तो वेबसाइट मालिकों के लिए बड़ी चिंता ट्रैफ़िक खोना है। बार्ड के मामले में, एआई बॉट अपनी सृजनात्मक प्रतिक्रियाओं में शायद ही कभी उद्धरण शामिल करता है, उपयोगकर्ताओं को यह बताता है कि उसे किन पेजों से जानकारी मिलती है।

इसलिए, एआई प्रतिक्रियाओं के साथ वेबसाइट विज़िट को बदलने के अलावा, बार्ड स्रोत वेबसाइट को ट्रैफ़िक प्राप्त करने की लगभग किसी भी संभावना को हटा देता है - भले ही उपयोगकर्ता अधिक जानकारी चाहता हो। दूसरी ओर, बिंग चैट आमतौर पर सूचना स्रोतों से लिंक होता है।

दूसरे शब्दों में, जेनरेटिव एआई टूल्स का वर्तमान बेड़ा है सामग्री रचनाकारों के काम का उपयोग करना सामग्री रचनाकारों की आवश्यकता को व्यवस्थित रूप से प्रतिस्थापित करना। आख़िरकार, तुम्हें पूछना ही पड़ेगा इससे वेबसाइट स्वामियों को क्या प्रोत्साहन मिलता है सामग्री प्रकाशित करना जारी रखने के लिए. और, विस्तार से, एआई बॉट्स का क्या होता है जब वेबसाइटें उस सामग्री को प्रकाशित करना बंद कर देती हैं जिस पर वे कार्य करने के लिए भरोसा करते हैं?

अपनी वेबसाइट से AI बॉट्स को कैसे ब्लॉक करें

यदि आप नहीं चाहते कि AI बॉट आपकी वेब सामग्री का उपयोग करें, तो आप इसका उपयोग करके उन्हें अपनी साइट तक पहुंचने से रोक सकते हैं robots.txt फ़ाइल। दुर्भाग्य से, आपको प्रत्येक व्यक्तिगत बॉट को ब्लॉक करना होगा और उन्हें नाम से निर्दिष्ट करना होगा।

उदाहरण के लिए, कॉमन क्रॉल के बॉट को CCBot कहा जाता है और आप अपनी robots.txt फ़ाइल में निम्नलिखित कोड जोड़कर इसे ब्लॉक कर सकते हैं:

उपयोगकर्ता-एजेंट: CCBot
अस्वीकृत: /

यह कॉमन क्रॉल को भविष्य में आपकी वेबसाइट को क्रॉल करने से रोक देगा लेकिन यह पिछले क्रॉल से पहले से एकत्र किए गए किसी भी डेटा को नहीं हटाएगा।

यदि आप ChatGPT के नए प्लगइन्स द्वारा आपकी वेब सामग्री तक पहुँचने के बारे में चिंतित हैं, तो OpenAI पहले ही प्रकाशित हो चुका है इसके बॉट को ब्लॉक करने के निर्देश. इस मामले में, ChatGPT के बॉट को ChatGPT-User कहा जाता है और आप अपनी robots.txt फ़ाइल में निम्नलिखित कोड जोड़कर इसे ब्लॉक कर सकते हैं:

उपयोगकर्ता-एजेंट: चैटजीपीटी-उपयोगकर्ता
अस्वीकृत: /

हालाँकि, खोज इंजन AI बॉट्स को आपकी सामग्री को क्रॉल करने से रोकना पूरी तरह से एक और समस्या है। चूंकि Google अपने द्वारा उपयोग किए जाने वाले प्रशिक्षण डेटा के बारे में अत्यधिक गोपनीय है, इसलिए यह पहचानना असंभव है कि आपको किन बॉट्स को ब्लॉक करने की आवश्यकता होगी और क्या वे आपके आदेशों का सम्मान भी करेंगे। robots.txt फ़ाइल (कई क्रॉलर नहीं करते हैं)।

यह तरीका कितना कारगर है?

आपके में AI बॉट्स को ब्लॉक करना robots.txt फ़ाइल वर्तमान में उपलब्ध सबसे प्रभावी तरीका है, लेकिन यह विशेष रूप से विश्वसनीय नहीं है।

पहली समस्या यह है कि आपको प्रत्येक बॉट को निर्दिष्ट करना होगा जिसे आप ब्लॉक करना चाहते हैं, लेकिन बाजार में आने वाले प्रत्येक एआई बॉट पर नज़र कौन रख सकता है? अगला मुद्दा यह है कि आपके अंदर कमांड है robots.txt फ़ाइल गैर-अनिवार्य निर्देश हैं. जबकि कॉमन क्रॉल, चैटजीपीटी और कई अन्य बॉट इन आदेशों का सम्मान करते हैं, कई बॉट नहीं करते हैं।

दूसरी बड़ी चेतावनी यह है कि आप केवल एआई बॉट्स को भविष्य में क्रॉल करने से रोक सकते हैं। आप पिछले क्रॉल से डेटा नहीं हटा सकते हैं या अपने सभी डेटा को मिटाने के लिए OpenAI जैसी कंपनियों को अनुरोध नहीं भेज सकते हैं।

दुर्भाग्य से, सभी एआई बॉट्स को आपकी वेबसाइट तक पहुंचने से रोकने का कोई आसान तरीका नहीं है, और प्रत्येक व्यक्तिगत बॉट को मैन्युअल रूप से ब्लॉक करना लगभग असंभव है। भले ही आप वेब पर घूमने वाले नवीनतम एआई बॉट्स के साथ बने रहें, इस बात की कोई गारंटी नहीं है कि वे सभी आपके आदेशों का पालन करेंगे। robots.txt फ़ाइल।

यहां असली सवाल यह है कि क्या परिणाम प्रयास के लायक हैं, और संक्षिप्त उत्तर (लगभग निश्चित रूप से) नहीं है।

आपकी वेबसाइट से AI बॉट्स को ब्लॉक करने के संभावित नकारात्मक पहलू भी हैं। सबसे बढ़कर, आप यह साबित करने के लिए सार्थक डेटा एकत्र नहीं कर पाएंगे कि बार्ड जैसे उपकरण आपकी खोज मार्केटिंग रणनीति को लाभ पहुंचा रहे हैं या नुकसान पहुंचा रहे हैं।

हां, आप मान सकते हैं कि उद्धरणों की कमी हानिकारक है, लेकिन आप केवल अनुमान लगा रहे हैं कि क्या आपके पास डेटा की कमी है क्योंकि आपने एआई बॉट्स को अपनी सामग्री तक पहुंचने से रोक दिया है। यह ऐसी ही कहानी थी जब Google ने पहली बार पेश किया था विशेष रुप से प्रदर्शित स्निपेट्स खोजना।

प्रासंगिक प्रश्नों के लिए, Google उपयोगकर्ता के प्रश्न का उत्तर देते हुए, परिणाम पृष्ठ पर वेब पृष्ठों की सामग्री का एक टुकड़ा दिखाता है। इसका मतलब यह है कि उपयोगकर्ताओं को जो उत्तर वे खोज रहे हैं उसे पाने के लिए किसी वेबसाइट पर क्लिक करने की आवश्यकता नहीं है। इससे वेबसाइट मालिकों और एसईओ विशेषज्ञों में घबराहट फैल गई, जो खोज क्वेरी से ट्रैफ़िक उत्पन्न करने पर भरोसा करते हैं।

हालाँकि, जिस प्रकार की क्वेरीज़ विशेष स्निपेट्स को ट्रिगर करती हैं, वे आम तौर पर कम-मूल्य वाली खोजें होती हैं जैसे "एक्स क्या है" या "न्यूयॉर्क में मौसम कैसा है"। जो कोई भी गहन जानकारी या व्यापक मौसम रिपोर्ट चाहता है वह अभी भी क्लिक करेगा, और जो नहीं चाहते वे पहले स्थान पर कभी भी इतने मूल्यवान नहीं थे।

आपको लग सकता है कि यह जेनेरेटिव एआई टूल के साथ भी ऐसी ही कहानी है, लेकिन इसे साबित करने के लिए आपको डेटा की आवश्यकता होगी।

किसी भी चीज़ में जल्दबाजी न करें

वेबसाइट के मालिक और प्रकाशक एआई तकनीक के बारे में चिंतित हैं और त्वरित प्रतिक्रिया उत्पन्न करने के लिए अपनी सामग्री का उपयोग करने वाले बॉट्स के विचार से निराश हैं। हालाँकि, यह जवाबी कार्रवाई में जल्दबाजी करने का समय नहीं है। एआई तकनीक एक तेजी से आगे बढ़ने वाला क्षेत्र है, और चीजें तीव्र गति से विकसित होती रहेंगी। इस अवसर का उपयोग यह देखने के लिए करें कि चीजें किस तरह से चलती हैं और एआई द्वारा लाए जाने वाले संभावित खतरों और अवसरों का विश्लेषण करें।

सामग्री रचनाकारों के काम को प्रतिस्थापित करने के लिए उन पर निर्भर रहने की वर्तमान प्रणाली टिकाऊ नहीं है। चाहे Google और OpenAI जैसी कंपनियां अपना दृष्टिकोण बदलें या सरकारें नए नियम लागू करें, कुछ तो देना ही होगा। साथ ही, सामग्री निर्माण पर एआई चैटबॉट्स के नकारात्मक प्रभाव तेजी से स्पष्ट हो रहे हैं, जिसका उपयोग वेबसाइट मालिक और सामग्री निर्माता अपने लाभ के लिए कर सकते हैं।