एआई मॉडल केवल उतना ही अच्छा है जितना डेटा उनमें जाता है। यह इस डेटा को हमलों का संभावित लक्ष्य बनाता है।
कृत्रिम बुद्धिमत्ता में प्रगति का विभिन्न क्षेत्रों पर महत्वपूर्ण प्रभाव पड़ा है। इसने काफी संख्या में तकनीकी उत्साही लोगों को चिंता का कारण बना दिया है। चूंकि ये प्रौद्योगिकियां विभिन्न अनुप्रयोगों में विस्तारित होती हैं, इसलिए वे प्रतिकूल हमलों में वृद्धि कर सकते हैं।
आर्टिफिशियल इंटेलिजेंस में प्रतिकूल हमले क्या हैं?
प्रतिकूल हमले एआई मॉडल के भीतर विशिष्टताओं और कमजोरियों का फायदा उठाते हैं। वे उस डेटा को दूषित करते हैं जिसे एआई मॉडल ने सीखा है और इन मॉडलों को गलत आउटपुट उत्पन्न करने का कारण बनता है।
कल्पना कीजिए कि एक मसखरा अनानास के रूप में व्यवस्थित स्क्रैबल टाइलों को "एप्पलपाइन" में बदल देता है। यह वैसा ही है जैसा विरोधी हमलों में होता है।
कुछ साल पहले, एआई मॉडल से कुछ गलत प्रतिक्रियाएं या आउटपुट प्राप्त करना आदर्श था। अब मामला उल्टा है, क्योंकि गलतियाँ अपवाद बन गई हैं, एआई उपयोगकर्ताओं को निकट-परिपूर्ण परिणामों की उम्मीद है।
जब इन एआई मॉडलों को वास्तविक दुनिया के परिदृश्यों पर लागू किया जाता है, तो गलतियाँ घातक हो सकती हैं, प्रतिकूल हमलों को बहुत खतरनाक बना सकती हैं। उदाहरण के लिए, यातायात संकेतों पर स्टिकर एक स्वायत्त स्व-ड्राइविंग कार को भ्रमित कर सकते हैं और इसे यातायात में या सीधे बाधा में ले जाने का कारण बन सकते हैं।
प्रतिकूल हमलों के प्रकार
प्रतिकूल हमलों के विभिन्न रूप हैं। साथ रोजमर्रा के अनुप्रयोगों में एआई का एकीकरण बढ़ाना, इन हमलों के बदतर और अधिक जटिल होने की संभावना है।
बहरहाल, हम एआई मॉडल के बारे में कितना खतरा अभिनेता जानते हैं, इसके आधार पर हम मोटे तौर पर प्रतिकूल हमलों को दो प्रकारों में वर्गीकृत कर सकते हैं।
1. व्हाइट बॉक्स अटैक
में सफेद बॉक्स हमले, थ्रेट एक्टर्स को AI मॉडल की आंतरिक कार्यप्रणाली का पूरा ज्ञान है। वे इसकी विशिष्टताओं, प्रशिक्षण डेटा, प्रसंस्करण तकनीकों और मापदंडों को जानते हैं। यह ज्ञान उन्हें विशेष रूप से मॉडल के लिए प्रतिकूल हमले करने में सक्षम बनाता है।
एक सफेद बॉक्स हमले में पहला कदम मूल प्रशिक्षण डेटा को बदलना है, इसे कम से कम संभव तरीके से दूषित करना। संशोधित डेटा अभी भी मूल के समान होगा लेकिन एआई मॉडल को गलत परिणाम देने के लिए पर्याप्त महत्वपूर्ण होगा।
वह सब कुछ नहीं है। हमले के बाद, थ्रेट एक्टर ने प्रतिकूल उदाहरण देकर मॉडल की प्रभावशीलता का मूल्यांकन किया-मॉडल को गलतियाँ करने के लिए डिज़ाइन किए गए विकृत इनपुट-और आउटपुट का विश्लेषण करता है। परिणाम जितना अधिक गलत होगा, आक्रमण उतना ही अधिक सफल होगा।
2. ब्लैक बॉक्स अटैक
व्हाइट बॉक्स हमलों के विपरीत, जहां धमकी देने वाला अभिनेता एआई मॉडल के आंतरिक कामकाज के बारे में जानता है, के अपराधी ब्लैक बॉक्स हमले पता नहीं कैसे मॉडल काम करता है। वे केवल एक अंधे स्थान से मॉडल का निरीक्षण करते हैं, इसके इनपुट और आउटपुट मूल्यों की निगरानी करते हैं।
ब्लैक बॉक्स हमले में पहला कदम इनपुट लक्ष्य का चयन करना है जिसे एआई मॉडल वर्गीकृत करना चाहता है। इसके बाद थ्रेट एक्टर सावधानी से बनाए गए शोर को जोड़कर इनपुट का एक दुर्भावनापूर्ण संस्करण बनाता है, मानव आंखों के लिए अदृश्य लेकिन एआई मॉडल को पैदा करने में सक्षम डेटा के लिए गड़बड़ी खराबी।
दुर्भावनापूर्ण संस्करण मॉडल को खिलाया जाता है, और आउटपुट देखा जाता है। मॉडल द्वारा दिए गए परिणाम खतरे वाले अभिनेता को संस्करण को तब तक संशोधित करने में मदद करते हैं जब तक कि वे पर्याप्त आश्वस्त न हों कि यह इसमें डाले गए किसी भी डेटा को गलत तरीके से वर्गीकृत करेगा।
प्रतिकूल हमलों में प्रयुक्त तकनीकें
दुर्भावनापूर्ण संस्थाएँ प्रतिकूल हमलों को अंजाम देने के लिए विभिन्न तकनीकों का उपयोग कर सकती हैं। इनमें से कुछ तकनीकें यहां दी गई हैं।
1. विषाक्तता
हमलावर अपने प्रशिक्षण डेटासेट और सटीकता से समझौता करने के लिए एआई मॉडल के इनपुट डेटा के एक छोटे से हिस्से में हेरफेर (जहर) कर सकते हैं।
विषाक्तता के कई रूप हैं। आम लोगों में से एक को बैकडोर पॉइज़निंग कहा जाता है, जहाँ बहुत कम प्रशिक्षण डेटा प्रभावित होता है। एआई मॉडल अत्यधिक सटीक परिणाम देना जारी रखता है जब तक कि यह विशिष्ट ट्रिगर्स के संपर्क में खराबी के लिए "सक्रिय" न हो।
2. टालना
यह तकनीक बल्कि घातक है, क्योंकि यह एआई की सुरक्षा प्रणाली के बाद जाकर पता लगाने से बचती है।
अधिकांश एआई मॉडल विसंगति का पता लगाने वाले सिस्टम से लैस हैं। अपवंचन तकनीक प्रतिकूल उदाहरणों का उपयोग करती है जो सीधे इन प्रणालियों का पीछा करते हैं।
यह तकनीक स्वायत्त कारों या चिकित्सा निदान मॉडल जैसी नैदानिक प्रणालियों के लिए विशेष रूप से खतरनाक हो सकती है। ये ऐसे क्षेत्र हैं जहां अशुद्धि के गंभीर परिणाम हो सकते हैं।
3. transferability
इस तकनीक का उपयोग करने वाले खतरे वाले अभिनेताओं को एआई मॉडल के मापदंडों के पिछले ज्ञान की आवश्यकता नहीं है। वे प्रतिकूल हमलों का उपयोग करते हैं जो मॉडल के अन्य संस्करणों के खिलाफ अतीत में सफल रहे हैं।
उदाहरण के लिए, यदि एक विरोधात्मक हमले के कारण एक छवि वर्गीकारक मॉडल गलती से एक कछुए को राइफल समझ लेता है, तो सटीक हमले के कारण अन्य छवि वर्गीकारक मॉडल भी वही त्रुटि कर सकते हैं। अन्य मॉडलों को एक अलग डेटासेट पर प्रशिक्षित किया जा सकता था और यहां तक कि अलग-अलग आर्किटेक्चर भी हो सकते थे लेकिन फिर भी वे हमले के शिकार हो सकते थे।
4. किराए की कोख
चोरी की तकनीकों या पहले के सफल हमलों का उपयोग करके मॉडल की सुरक्षा प्रणालियों के बाद जाने के बजाय, खतरा अभिनेता एक सरोगेट मॉडल का उपयोग कर सकता है।
इस तकनीक के साथ, खतरा अभिनेता लक्ष्य मॉडल का एक समान संस्करण बनाता है, एक सरोगेट मॉडल। सरोगेट के परिणाम, पैरामीटर और व्यवहार कॉपी किए गए मूल मॉडल के समान होने चाहिए।
सरोगेट अब विभिन्न प्रतिकूल हमलों के अधीन होगा जब तक कि कोई इसे गलत परिणाम देने या गलत वर्गीकरण करने का कारण नहीं बनता। फिर, इस हमले का इस्तेमाल मूल लक्ष्य एआई पर किया जाएगा।
प्रतिकूल हमलों को कैसे रोकें
प्रतिकूल हमलों के खिलाफ बचाव करना जटिल और समय लेने वाला हो सकता है क्योंकि खतरे के कारक विभिन्न रूपों और तकनीकों को नियोजित करते हैं। हालाँकि, निम्नलिखित कदम प्रतिकूल हमलों को रोक और रोक सकते हैं।
1. प्रतिकूल प्रशिक्षण
सबसे प्रभावी कदम जो प्रतिकूल हमलों को रोक सकता है, वह है प्रतिकूल प्रशिक्षण, एआई मॉडल का प्रशिक्षण और प्रतिकूल उदाहरणों का उपयोग करने वाली मशीनें। यह मॉडल की मजबूती में सुधार करता है और इसे थोड़ी सी इनपुट गड़बड़ी के लिए लचीला होने की अनुमति देता है।
2. नियमित ऑडिटिंग
एआई मॉडल की विसंगति पहचान प्रणाली में कमजोरियों की नियमित जांच करना आवश्यक है। इसमें जानबूझकर मॉडल को प्रतिकूल उदाहरणों के साथ खिलाना और दुर्भावनापूर्ण इनपुट के लिए मॉडल के व्यवहार की निगरानी करना शामिल है।
3. डेटा स्वच्छता
इस पद्धति में मॉडल में डाले जा रहे दुर्भावनापूर्ण इनपुट की जाँच करना शामिल है। उनकी पहचान करने के बाद उन्हें तुरंत हटा दिया जाना चाहिए।
इनपुट सत्यापन का उपयोग करके इन डेटा की पहचान की जा सकती है, जिसमें पहले से ज्ञात प्रतिकूल उदाहरणों के पैटर्न या हस्ताक्षर के लिए डेटा की जाँच करना शामिल है।
4. सुरक्षा अद्यतन
सुरक्षा अपडेट और पैच के साथ गलती करना मुश्किल होगा। बहुस्तरीय सुरक्षा जैसे फायरवॉल, एंटी-मैलवेयर प्रोग्राम और घुसपैठ का पता लगाने और रोकथाम प्रणाली एआई मॉडल को ज़हर देने वाले खतरे के अभिनेताओं से बाहरी हस्तक्षेप को रोकने में मदद कर सकता है।
प्रतिकूल हमले एक योग्य विरोधी हो सकते हैं
प्रतिकूल हमलों की अवधारणा उन्नत शिक्षा और मशीन सीखने के लिए एक समस्या प्रस्तुत करती है।
नतीजतन, एआई मॉडल को प्रतिकूल प्रशिक्षण, नियमित ऑडिटिंग, डेटा स्वच्छता और प्रासंगिक सुरक्षा अपडेट जैसे सुरक्षा से लैस किया जाना है।