GPTBot संभवतः वह नहीं है जो आप सोचते हैं।
चाबी छीनना
- OpenAI का GPTBot एक वेब क्रॉलर है जिसे सार्वजनिक वेबसाइटों से डेटा इकट्ठा करने के लिए डिज़ाइन किया गया है, जिसका उपयोग GPT-4 और ChatGPT जैसे AI मॉडल को प्रशिक्षित करने और बेहतर बनाने के लिए किया जाता है।
- इंटरनेट पर कुछ सबसे बड़ी वेबसाइटें GPTBot को ब्लॉक कर रही हैं क्योंकि यह रचनाकारों की अनुमति या मुआवजे के बिना कॉपीराइट सामग्री तक पहुंचती है और उसका उपयोग करती है।
- हालाँकि वेबसाइटें GPTBot को ब्लॉक करने के लिए robots.txt जैसे टूल का उपयोग कर सकती हैं, लेकिन इस बात की कोई गारंटी नहीं है कि OpenAI इसका अनुपालन करेगा, जिससे उन्हें कॉपीराइट डेटा तक पहुँचने पर नियंत्रण मिल जाएगा।
अगस्त 2023 में, ओपनएआई, एआई पावरहाउस जिसे चैटजीपीटी विकसित करने का श्रेय दिया जाता है, ने जीपीटीबॉट की घोषणा की, जो एक वेब क्रॉलर है जिसे वेब को पार करने और डेटा इकट्ठा करने के लिए डिज़ाइन किया गया है।
उस घोषणा के कुछ ही समय बाद, इंटरनेट पर कुछ सबसे बड़ी वेबसाइटों ने बॉट को उनकी वेबसाइट तक पहुँचने से रोक दिया। लेकिन क्यों? OpenAI का GPTBot क्या है? बड़ी वेबसाइटें इससे क्यों डरती हैं, और वे इसे ब्लॉक करने की कोशिश क्यों कर रही हैं?
OpenAI का GPTBot क्या है?
GPTBot इंटरनेट पर खोज करने और OpenAI के AI विकास लक्ष्यों के लिए जानकारी इकट्ठा करने के लिए OpenAI द्वारा बनाया गया एक वेब क्रॉलर है। इसे सार्वजनिक वेबसाइटों को क्रॉल करने और डेटा को OpenAI के सर्वर पर वापस भेजने के लिए प्रोग्राम किया गया है। OpenAI इस डेटा का उपयोग तेजी से उन्नत कृत्रिम बुद्धिमत्ता प्रणालियों के निर्माण के लक्ष्य के साथ, अपने AI मॉडल को प्रशिक्षित करने और सुधारने के लिए करता है। GPT-4 जैसे परिष्कृत AI मॉडल या ChatGPT जैसे इसके चाइल्ड उत्पाद बनाने के लिए, वेब क्रॉलर लगभग अपरिहार्य हैं।
एआई मॉडल को प्रशिक्षित करने के लिए भारी मात्रा में डेटा की आवश्यकता होती है, और इस डेटा को इकट्ठा करने का सबसे प्रभावी तरीका वेब क्रॉलर जैसे टूल को तैनात करना है। क्रॉलर व्यवस्थित रूप से वेब ब्राउज़ कर सकते हैं, बड़ी मात्रा में वेबपेजों को अनुक्रमित करने के लिए लिंक का अनुसरण कर सकते हैं, और टेक्स्ट, छवियों और मेटाडेटा जैसे प्रमुख डेटा निकाल सकते हैं जो पूर्वनिर्धारित पैटर्न से मेल खाते हैं।
फिर इस डेटा को उनकी प्राकृतिक भाषा प्रसंस्करण क्षमताओं या छवि निर्माण क्षमताओं को प्रशिक्षित करने या अन्य एआई कार्यों के लिए प्रशिक्षित करने के लिए एआई मॉडल में संरचित और फीड किया जा सकता है। क्रमबद्ध शब्दों में, वेब क्रॉलर डेटा इकट्ठा करते हैं जो ChatGPT या DALL-E जैसे टूल के लिए वह करना संभव बनाता है जो वे करते हैं।
वेब क्रॉलर कोई नई अवधारणा नहीं है. आज इंटरनेट पर उपलब्ध अरबों वेबसाइटों को संभवतः लाखों लोग क्रॉल कर रहे हैं। और वे कम से कम 90 के दशक की शुरुआत से ही मौजूद हैं। GPTBot OpenAI के स्वामित्व वाले ऐसे क्रॉलर्स में से एक है। तो, इस विशेष वेब क्रॉलर को लेकर विवाद का कारण क्या है?
बड़ी तकनीकी साइटें GPTBot को क्यों रोक रही हैं?
के अनुसार व्यापार अंदरूनी सूत्रइंटरनेट पर कुछ सबसे बड़ी वेबसाइटें अपनी वेबसाइट पर OpenAI के क्रॉलर को सक्रिय रूप से ब्लॉक कर रही हैं। तो, यदि GPTBot का अंतिम लक्ष्य AI विकास को आगे बढ़ाना है, तो इंटरनेट पर कुछ सबसे बड़ी साइटें, जिनमें से कुछ ने AI से किसी न किसी तरह से लाभ उठाया है, इसके विरुद्ध क्यों हैं?
खैर, बात ये है. 2022 में जेनेरिक एआई प्रौद्योगिकियों के पुनरुत्थान के बाद से, एआई कंपनियों के अधिकार पर कई बहसें हुई हैं। इंटरनेट से प्राप्त डेटा का लगभग बिना किसी सीमा के उपयोग करें, जिसका एक महत्वपूर्ण हिस्सा कानूनी रूप से संरक्षित है कॉपीराइट. कोई स्पष्ट कानून यह नियंत्रित नहीं करता कि ये कंपनियाँ अपने लाभ के लिए डेटा कैसे एकत्र करती हैं और उसका उपयोग कैसे करती हैं।
तो, मूल रूप से, GPTBot जैसे क्रॉलर वेब को क्रॉल करते हैं, टेक्स्ट, छवियों या अन्य रूपों के रूप में लोगों के रचनात्मक कार्य को पकड़ते हैं। मीडिया, और बिना किसी अनुमति, लाइसेंस प्राप्त किए, या मूल को मुआवजा प्रदान किए बिना व्यावसायिक उद्देश्यों के लिए इसका उपयोग करें रचनाकार.
यह एक जंगली पश्चिम है, और एआई कंपनियां जो कुछ भी उनके हाथ लग रहा है उसे हड़प रही हैं। Quora, CNN, न्यूयॉर्क टाइम्स, बिजनेस इनसाइडर और Amazon जैसी बड़ी वेबसाइटें इस बात से बहुत खुश नहीं हैं इन क्रॉलर्स द्वारा कॉपीराइट सामग्री का संग्रह किया जा रहा है, इसलिए OpenAI को इससे वित्तीय लाभ मिल सकता है व्यय.
यही कारण है कि ये साइटें वेब क्रॉलर्स को ब्लॉक करने की दशकों पुरानी विधि "robots.txt" को तैनात कर रही हैं। के अनुसार ओपनएआई, GPTBot robots.txt में अंतर्निहित नियमों के आधार पर वेबसाइटों को क्रॉल करने या क्रॉल करने से बचने के निर्देशों का पालन करेगा, एक छोटी टेक्स्ट फ़ाइल जो वेब क्रॉलर्स को बताती है कि किसी साइट पर कैसे व्यवहार करना है। यदि आपके पास अपनी खुद की साइट है और आप GPTBot को आपका डेटा हड़पने से रोकना चाहेंगे, तो यहां बताया गया है कि आप ऐसा कैसे कर सकते हैं OpenAI के क्रॉलर्स को आपकी वेबसाइट को स्क्रैप करने से रोकें.
क्या वेबसाइटें वास्तव में GPTBot को रोक सकती हैं?
जबकि GPTBot जैसे क्रॉलर आवश्यक भारी मात्रा में डेटा एकत्र करने के लिए अपरिहार्य हैं उन्नत एआई सिस्टम को प्रशिक्षित करें, कॉपीराइट और उचित उपयोग के बारे में वैध चिंताएं हैं जो नहीं हो सकतीं अवहेलना करना।
निश्चित रूप से, robots.txt जैसे सरल उपकरण हैं जिनका उपयोग इससे बचाव के लिए किया जा सकता है, लेकिन GPTBot इस फ़ाइल के निर्देशों का पालन करता है या नहीं यह पूरी तरह से OpenAI के विवेक पर निर्भर है। इसकी कोई गारंटी नहीं है कि वे ऐसा करेंगे, और यह बताने का कोई तत्काल अचूक तरीका नहीं है कि उन्होंने ऐसा किया है या नहीं। GPTBot को कॉपीराइट डेटा से दूर रखने की लड़ाई में, OpenAI के पास कम से कम अभी के लिए इक्के हैं।