साइबर सुरक्षा खतरों का आकलन करने के लिए इस बड़े भाषा मॉडल को डार्क वेब पर प्रशिक्षित किया गया है। यहाँ वह है जो आपको जानना चाहिए।

बड़े भाषा मॉडल (एलएलएम) की लोकप्रियता बढ़ रही है, नए लगातार दृश्य में प्रवेश कर रहे हैं। ये मॉडल, जैसे चैटजीपीटी, आमतौर पर विभिन्न इंटरनेट स्रोतों पर प्रशिक्षित होते हैं, जिनमें लेख, वेबसाइट, किताबें और सोशल मीडिया शामिल हैं।

एक अभूतपूर्व कदम में, दक्षिण कोरियाई शोधकर्ताओं की एक टीम ने डार्क वेब से विशेष रूप से लिए गए डेटासेट पर प्रशिक्षित एक एलएलएम डार्कबर्ट विकसित किया। उनका उद्देश्य एक एआई उपकरण बनाना था जो मौजूदा भाषा मॉडल से बेहतर प्रदर्शन करता है और साइबर खतरों से लड़ने में शोधकर्ताओं, कानून प्रवर्तन और साइबर सुरक्षा पेशेवरों की सहायता करता है।

डार्कबर्ट क्या है?

DarkBERT एक ट्रांसफार्मर-आधारित एनकोडर मॉडल है जो RoBERTa आर्किटेक्चर पर आधारित है। एलएलएम को लाखों डार्क वेब पेजों पर प्रशिक्षित किया गया था, जिसमें हैकिंग फ़ोरम, स्कैमिंग वेबसाइटों और अवैध गतिविधियों से जुड़े अन्य ऑनलाइन स्रोतों के डेटा शामिल थे।

शब्द "डार्क वेब" एक छिपे हुए इंटरनेट सेक्शन को संदर्भित करता है

instagram viewer
मानक वेब ब्राउज़र के माध्यम से दुर्गम। उपखंड चोरी किए गए डेटा, ड्रग्स और हथियारों के व्यापार जैसी अवैध गतिविधियों के लिए कुख्यात वेबसाइटों और बाज़ारों को शरण देने के लिए प्रसिद्ध है।

डार्कबर्ट को प्रशिक्षित करने के लिए, शोधकर्ताओं ने प्राप्त किया डार्क वेब तक पहुंच टोर नेटवर्क के माध्यम से और कच्चा डेटा एकत्र किया। उन्होंने डुप्लीकेशन, श्रेणी संतुलन और प्री-प्रोसेसिंग जैसी तकनीकों का उपयोग करके इस डेटा को सावधानीपूर्वक फ़िल्टर किया एक परिष्कृत डार्क वेब डेटाबेस बनाएं, जिसे बनाने के लिए लगभग 15 दिनों के दौरान रोबर्टा को खिलाया गया डार्कबर्ट।

साइबर सुरक्षा में डार्कबर्ट के संभावित उपयोग

DarkBERT को साइबर अपराधियों की भाषा की उल्लेखनीय समझ है और विशिष्ट संभावित खतरों का पता लगाने में उत्कृष्ट है। यह डार्क वेब पर शोध कर सकता है और डेटा लीक और रैंसमवेयर जैसे साइबर सुरक्षा खतरों की सफलतापूर्वक पहचान कर सकता है, जिससे यह साइबर खतरों से लड़ने के लिए एक संभावित उपयोगी उपकरण बन जाता है।

DarkBERT की प्रभावशीलता का मूल्यांकन करने के लिए, शोधकर्ताओं ने इसकी तुलना दो प्रसिद्ध NLP मॉडल, BERT और से की रॉबर्टा ने तीन महत्वपूर्ण साइबर सुरक्षा से संबंधित उपयोग के मामलों में उनके प्रदर्शन का आकलन किया, अनुसंधान, प्रकाशित किया गया arxiv.org, दर्शाता है।

1. संभावित रूप से हानिकारक थ्रेड्स के लिए डार्क वेब फ़ोरम की निगरानी करें

डार्क वेब फ़ोरम की निगरानी करना, जो आमतौर पर अवैध सूचनाओं के आदान-प्रदान के लिए उपयोग किया जाता है, संभावित खतरनाक धागों की पहचान करने के लिए महत्वपूर्ण है। हालाँकि, मैन्युअल रूप से इनकी समीक्षा करना समय लेने वाला हो सकता है, जिससे सुरक्षा विशेषज्ञों के लिए प्रक्रिया का स्वचालन लाभदायक हो जाता है।

शोधकर्ताओं ने हैकिंग फ़ोरम में संभावित हानिकारक गतिविधियों पर ध्यान केंद्रित किया, एनोटेशन दिशानिर्देश तैयार किए उल्लेखनीय धागों के लिए, जिसमें गोपनीय डेटा साझा करना और महत्वपूर्ण मैलवेयर वितरित करना शामिल है या भेद्यता।

डार्क वेब पर उल्लेखनीय धागों की पहचान करने के लिए बेहतर विकल्प के रूप में उभरते हुए, डार्कबर्ट ने सटीक, रिकॉल और एफ 1 स्कोर के मामले में अन्य भाषा मॉडल को पीछे छोड़ दिया।

2. गोपनीय जानकारी होस्ट करने वाली साइटों का पता लगाएं

हैकर्स और रैंसमवेयर समूह लीक साइट बनाने के लिए डार्क वेब का उपयोग करते हैं, जहां वे उन संगठनों से चुराए गए गोपनीय डेटा को प्रकाशित करते हैं जो फिरौती की मांगों का पालन करने से इनकार करते हैं। अन्य साइबर अपराधी केवल लीक हुए संवेदनशील डेटा, जैसे पासवर्ड और वित्तीय जानकारी को डार्क वेब पर बेचने के इरादे से अपलोड करते हैं।

अपने अध्ययन में, शोधकर्ताओं ने डेटा एकत्र किया कुख्यात रैंसमवेयर समूह और संगठनों के निजी डेटा को प्रकाशित करने वाली रैंसमवेयर लीक साइटों का विश्लेषण किया। डार्क वेब पर अंडरग्राउंड हैकिंग फ़ोरम में उपयोग की जाने वाली भाषा की अपनी समझ को प्रदर्शित करते हुए, डार्कबर्ट ने ऐसी साइटों की पहचान करने और वर्गीकृत करने में अन्य भाषा मॉडल को पीछे छोड़ दिया।

डार्क वेब पर दवा की बिक्री सहित अवैध गतिविधियों से जुड़े कीवर्ड की सटीक पहचान करने के लिए डार्कबर्ट, बीईआरटी-पारिवारिक भाषा मॉडल की एक अंतर्निहित विशेषता, फिल-मास्क फ़ंक्शन का लाभ उठाता है।

जब "एमडीएमए" शब्द को एक दवा बिक्री पृष्ठ में छुपाया गया था, तो डार्कबर्ट ने दवा से संबंधित शब्द उत्पन्न किए, जबकि अन्य मॉडलों ने विभिन्न व्यवसायों जैसे सामान्य शब्दों और दवाओं से संबंधित शब्दों का सुझाव दिया।

अवैध गतिविधियों से संबंधित खोजशब्दों की पहचान करने की डार्कबर्ट की क्षमता उभरते साइबर खतरों पर नज़र रखने और उन्हें संबोधित करने में मूल्यवान हो सकती है।

क्या डार्कबर्ट आम जनता के लिए सुलभ है?

डार्कबर्ट वर्तमान में जनता के लिए उपलब्ध नहीं है, लेकिन शोधकर्ता अकादमिक उद्देश्यों के लिए इसका उपयोग करने के अनुरोध के लिए खुले हैं।

खतरे का पता लगाने और रोकथाम के लिए एआई की शक्ति का उपयोग करें

DarkBERT को डार्क वेब डेटा पर पूर्व-प्रशिक्षित किया गया है और कई साइबर सुरक्षा उपयोग मामलों में मौजूदा भाषा मॉडल से बेहतर प्रदर्शन करता है, जिससे डार्क वेब अनुसंधान को आगे बढ़ाने के लिए एक महत्वपूर्ण उपकरण के रूप में इसकी स्थिति बनती है।

डार्क वेब-प्रशिक्षित एआई में विभिन्न साइबर सुरक्षा कार्यों के लिए उपयोग किए जाने की क्षमता है, जिसमें लीक हुई वेबसाइटों की पहचान करना शामिल है गोपनीय डेटा, अवैध सूचना साझा करने का पता लगाने के लिए डार्क वेब मंचों की निगरानी करना और साइबर से संबंधित कीवर्ड की पहचान करना धमकी।

लेकिन आपको हमेशा याद रखना चाहिए कि, अन्य एलएलएम की तरह, डार्कबर्ट एक कार्य प्रगति पर है, और निरंतर प्रशिक्षण और फाइन-ट्यूनिंग के माध्यम से इसके प्रदर्शन में सुधार किया जा सकता है।