इस टूलकिट का उपयोग करके सुदृढीकरण सीखने के एल्गोरिदम का विकास और तुलना करें।

यदि आप खरोंच से मशीन लर्निंग मॉडल नहीं बना सकते हैं या बुनियादी ढांचे की कमी है, तो केवल अपने ऐप को एक कार्यशील मॉडल से जोड़ने से अंतर ठीक हो जाता है।

आर्टिफिशियल इंटेलिजेंस यहां हर किसी के लिए एक या दूसरे तरीके से उपयोग करने के लिए है। जहाँ तक OpenAI जिम का सवाल है, आपके रीइन्फोर्समेंट लर्निंग एजेंट्स को खिलाने के लिए कई अन्वेषण योग्य प्रशिक्षण आधार हैं।

OpenAI जिम क्या है, यह कैसे काम करता है और आप इसका उपयोग करके क्या बना सकते हैं?

OpenAI जिम क्या है?

OpenAI जिम एक पाइथोनिक एपीआई है जो पर्यावरण अवलोकन के आधार पर कार्य करने के लिए सुदृढीकरण सीखने वाले एजेंटों के लिए सिम्युलेटेड प्रशिक्षण वातावरण प्रदान करता है; प्रत्येक क्रिया एक सकारात्मक या नकारात्मक इनाम के साथ आती है, जो प्रत्येक समय कदम पर अर्जित होती है। जबकि एजेंट का लक्ष्य पुरस्कारों को अधिकतम करना है, उसे प्रत्येक अप्रत्याशित निर्णय के लिए दंडित किया जाता है।

समय कदम पर्यावरण के दूसरे राज्य में पारगमन के लिए असतत-समय का टिक है। यह जुड़ जाता है क्योंकि एजेंट की कार्रवाइयाँ पर्यावरण की स्थिति को बदल देती हैं।

instagram viewer

OpenAI जिम कैसे काम करता है?

OpenAI जिम का वातावरण मार्कोव डिसीजन प्रोसेस (MDP) पर आधारित है, जो रीइन्फोर्समेंट लर्निंग में उपयोग किया जाने वाला एक गतिशील निर्णय लेने वाला मॉडल है। इस प्रकार, यह इस प्रकार है कि पुरस्कार तभी आते हैं जब पर्यावरण स्थिति बदलता है। और अगले राज्य की घटनाएँ केवल वर्तमान स्थिति पर निर्भर करती हैं, क्योंकि MDP पिछली घटनाओं के लिए जिम्मेदार नहीं है।

आगे बढ़ने से पहले, सुदृढीकरण सीखने में OpenAI जिम के आवेदन की त्वरित समझ के लिए एक उदाहरण में गोता लगाएँ।

यह मानकर कि आप किसी कार को रेसिंग गेम में प्रशिक्षित करना चाहते हैं, आप OpenAI जिम में एक रेसट्रैक स्पिन कर सकते हैं। सुदृढीकरण सीखने में, यदि वाहन बाएं के बजाय दाएं मुड़ता है, तो उसे -1 का नकारात्मक इनाम मिल सकता है। रेसट्रैक हर बार चरण में बदलता है और बाद के राज्यों में और अधिक जटिल हो सकता है।

सुदृढीकरण सीखने में एक एजेंट के लिए नकारात्मक पुरस्कार या दंड खराब नहीं हैं। कुछ मामलों में, यह इसे और अधिक तेज़ी से अपने लक्ष्य को प्राप्त करने के लिए प्रोत्साहित करता है। इस प्रकार, कार समय के साथ ट्रैक के बारे में सीखती है और इनाम की लकीरों का उपयोग करके अपने नेविगेशन में महारत हासिल करती है।

उदाहरण के लिए, हमने पहल की जमी हुई झील-v1 पर्यावरण, जहां एक एजेंट को बर्फ के छेद में गिरने के लिए दंडित किया जाता है लेकिन उपहार बॉक्स को पुनर्प्राप्त करने के लिए पुरस्कृत किया जाता है।

हमारे पहले रन ने बिना किसी पुरस्कार के कम पेनाल्टी उत्पन्न की:

हालाँकि, एक तीसरे पुनरावृत्ति ने अधिक जटिल वातावरण उत्पन्न किया। लेकिन एजेंट को कुछ पुरस्कार मिले:

उपरोक्त परिणाम का अर्थ यह नहीं है कि एजेंट अगले पुनरावृत्ति में सुधार करेगा। हालांकि यह अगली बार अधिक छिद्रों से सफलतापूर्वक बच सकता है, इसे कोई पुरस्कार नहीं मिल सकता है। लेकिन कुछ मापदंडों को संशोधित करने से इसकी सीखने की गति में सुधार हो सकता है।

OpenAI जिम अवयव

OpenAI जिम एपीआई निम्नलिखित घटकों के इर्द-गिर्द घूमता है:

  • वातावरण जहां आप एक एजेंट को प्रशिक्षित करते हैं। आप का उपयोग करके एक आरंभ कर सकते हैं जिम.मेक तरीका। OpenAI जिम मल्टी-एजेंट वातावरण का भी समर्थन करता है।
  • रैपर मौजूदा वातावरण को संशोधित करने के लिए। यद्यपि प्रत्येक आधार वातावरण डिफ़ॉल्ट रूप से पूर्व-रैप किया गया है, आप इसे max_actions, min_actions, और max पुरस्कार जैसे पैरामीटर के साथ पुनर्विक्रय कर सकते हैं।
  • एक कार्य; परिभाषित करता है कि एजेंट क्या करता है जब वह अपने वातावरण में परिवर्तन देखता है। एक वातावरण में प्रत्येक क्रिया एक कदम है जो टिप्पणियों के प्रति एजेंट की प्रतिक्रिया को परिभाषित करता है। एक कदम पूरा होने से एक अवलोकन, एक इनाम, जानकारी और एक छोटा या समाप्त मूल्य वापस आ जाता है।
  • अवलोकन; एक वातावरण में एक एजेंट के अनुभव को परिभाषित करता है। एक बार अवलोकन हो जाने के बाद, इसकी जानकारी के साथ एक क्रिया होती है। जानकारी पैरामीटर एक निष्पादन लॉग है जो डिबगिंग के लिए आसान है। एक बार चरण समाप्त होने के बाद, निर्दिष्ट पुनरावृत्तियों की संख्या के आधार पर पर्यावरण एन बार रीसेट हो जाता है।

आप OpenAI जिम से क्या बना सकते हैं?

चूँकि OpenAI जिम आपको कस्टम सीखने के वातावरण को स्पिन करने की अनुमति देता है, यहाँ वास्तविक जीवन परिदृश्य में इसका उपयोग करने के कुछ तरीके दिए गए हैं।

1. गेम सिमुलेशन

वांछित व्यवहारों को पुरस्कृत करने, गेमिंग पुरस्कार सृजित करने और प्रति गेम स्तर की जटिलता बढ़ाने के लिए आप OpenAI जिम के गेमिंग वातावरण का लाभ उठा सकते हैं।

2. छवि पहचान

जहां सीमित मात्रा में डेटा, संसाधन और समय है, OpenAI जिम छवि पहचान प्रणाली विकसित करने के लिए उपयोगी हो सकता है। एक गहरे स्तर पर, आप चेहरे की पहचान प्रणाली बनाने के लिए इसे बढ़ा सकते हैं, जो एक एजेंट को चेहरे की सही पहचान करने के लिए पुरस्कृत करता है।

3. रोबोट प्रशिक्षण

OpenAI जिम 3डी और 2डी सिमुलेशन के लिए सहज पर्यावरण मॉडल भी प्रदान करता है, जहां आप रोबोट में वांछित व्यवहार लागू कर सकते हैं। रोबोस्कूल OpenAI जिम का उपयोग करके निर्मित स्केल्ड रोबोट सिमुलेशन सॉफ़्टवेयर का एक उदाहरण है।

4. विपणन

आप OpenAI जिम का उपयोग करके विज्ञापन सर्वर, स्टॉक ट्रेडिंग बॉट्स, बिक्री भविष्यवाणी बॉट्स, उत्पाद अनुशंसाकर्ता सिस्टम और कई अन्य जैसे मार्केटिंग समाधान भी बना सकते हैं। उदाहरण के लिए, आप एक कस्टम OpenAI जिम मॉडल बना सकते हैं जो विज्ञापनों को इंप्रेशन और क्लिक दर के आधार पर दंडित करता है।

5. प्राकृतिक भाषा प्रसंस्करण

OpenAI जिम को लागू करने के कुछ तरीके प्राकृतिक भाषा प्रसंस्करण बहुविकल्पीय प्रश्न हैं जिनमें वाक्य पूरा करना शामिल है या एक स्पैम क्लासिफायरियर का निर्माण. उदाहरण के लिए, आप एक एजेंट को प्रतिभागियों को चिह्नित करते समय पूर्वाग्रह से बचने के लिए वाक्य विविधताओं को सीखने के लिए प्रशिक्षित कर सकते हैं।

OpenAI जिम के साथ शुरुआत कैसे करें

OpenAI जिम Python 3.7 और बाद के संस्करणों का समर्थन करता है। OpenAI जिम वातावरण स्थापित करने के लिए, आप स्थापित करेंगे व्यायामशाला, कांटा लगातार समर्थित जिम संस्करण:

पिप स्थापित व्यायामशाला

अगला, एक वातावरण को स्पिन करें। हालांकि, आप एक कस्टम वातावरण बना सकते हैं। लेकिन OpenAI जिम अवधारणा में महारत हासिल करने के लिए किसी मौजूदा के साथ खेलना शुरू करें।

नीचे दिया गया कोड स्पिन करता है जमी हुई झील-v1. env.रीसेट विधि प्रारंभिक अवलोकन रिकॉर्ड करती है:

आयात व्यायामशाला जैसा जिम
env = जिम.मेक ('जमे हुए झील-v1', रेंडर_मोड ="इंसान")

अवलोकन, जानकारी = env.reset ()

कुछ वातावरणों को काम करने के लिए अतिरिक्त पुस्तकालयों की आवश्यकता होती है। यदि आपको एक और पुस्तकालय स्थापित करने की आवश्यकता है, तो पायथन इसे अपवाद संदेश के माध्यम से सुझाता है।

उदाहरण के लिए, आप एक अतिरिक्त लाइब्रेरी स्थापित करेंगे (व्यायामशाला [खिलौना पाठ]) चलाने के लिए जमी हुई झील-v1 पर्यावरण।

OpenAI जिम की शक्ति का निर्माण करें

एआई और मशीन लर्निंग डेवलपमेंट के लिए एक झटका बुनियादी ढांचे और प्रशिक्षण डेटासेट की कमी है। लेकिन जैसा कि आप मशीन लर्निंग मॉडल को अपने ऐप या डिवाइस में एकीकृत करना चाहते हैं, यह अब इंटरनेट के चारों ओर उड़ने वाले तैयार एआई मॉडल के साथ आसान है। जबकि इनमें से कुछ उपकरण कम लागत वाले हैं, OpenAI जिम सहित अन्य, निःशुल्क और मुक्त-स्रोत हैं।