केवल कुछ महीने पहले, यदि आप किसी चीज़ का चित्र बनाना चाहते थे, तो आपको किसी ऐसे फ़ोटोशॉपिंग टूल का स्केच, पेंट या उपयोग करने में सक्षम होना चाहिए, जिसके बारे में दूसरे लोग बात करते रहते हैं। 2022 के बाद, हालांकि, सब कुछ बदल गया, एआई के लिए धन्यवाद - हाँ, "कृत्रिम बुद्धिमत्ता" के रूप में।

दुनिया पर हावी होने की कोशिश करने के बजाय, कलात्मक रूप से इच्छुक एआई उपकरण आपके द्वारा वर्णित किसी भी चीज़ को एक छवि में बदल सकते हैं।

जैसे ही हम एआई-पावर्ड टेक्स्ट विज़ुअलाइज़ेशन की दुनिया में प्रवेश करते हैं, हमारे साथ आएं, और देखें कि आप अपने विचारों को वास्तविक चित्रों में बदलने के लिए ऐसे टूल का उपयोग कैसे कर सकते हैं, जो आपके मन में है।

Dall-E: OpenAI के GPT-3. का कलात्मक पक्ष

पहले AI-संचालित उपकरण जो लोकप्रिय हुए, वे OpenAI के GPT-3 पर आधारित थे। कारणों में से एक बाहरी पहुंच के लिए परियोजना का खुलापन था, जिसके कारण कुछ सुझाव मिले कि GPT-3 रचनात्मक कार्यों का भविष्य है.

आज आप आधिकारिक टूल का उपयोग कर सकते हैं जो आपको यहां मिल सकते हैं ओपनएआई की बीटा साइट या तीसरे पक्ष के समाधान जो इसकी भाषाई महाशक्तियों का लाभ उठाते हैं। उदाहरण के लिए, आप GPT-3 को किसी पोस्ट के मसौदे के साथ आने के लिए कह सकते हैं, सरल प्रश्नों का उत्तर दे सकते हैं, या कुछ पाठ को संशोधित या अनुवाद भी कर सकते हैं।

instagram viewer

2022 में OpenAI ने खुलासा किया कि GPT-3 छवियों को क्राफ्ट करने में समान रूप से अच्छा था। DALL-E प्रोजेक्ट, पिक्सर की WALL-E मूवी और डाली के नाम पर एक नाटक, GPT-3 का उपयोग टेक्स्ट के साथ काम करने के लिए नहीं बल्कि एक छवि बनाने वाले इंजन के रूप में करता है।

GPT-3 और टेक्स्ट की तरह, DALL-E वास्तव में एक रचनात्मक प्रतिभा नहीं है, जो पतली हवा से छवियों को मूर्त रूप देता है। इसके बजाय, इसे उन लाखों छवियों पर "प्रशिक्षित" किया गया है जो पहले से ही ऑनलाइन मौजूद हैं। इसकी एआई शक्तियां उन छवियों का विश्लेषण करने, उनसे तत्वों को लेने, ट्विकिंग, मॉर्फिंग, एडजस्ट करने और अंत में उन्हें नई इमेजरी में संयोजित करने में निहित हैं।

कम से कम, यह पृष्ठभूमि में क्या होता है इसका एक सरलीकृत संस्करण है। अधिकांश लोग केवल वही देखते हैं जो वे अपने सामने देखते हैं, और यह एक टेक्स्ट बॉक्स है जहां आप कुछ टाइप कर सकते हैं और कुछ मिनटों के बाद इसे एक छवि में बदल सकते हैं।

Google का इमेजन उत्तर

Google AI अनुसंधान में शीर्ष तीन "खिलाड़ियों" में से एक है। फिर भी, उनकी प्रगति को आसानी से नहीं देखा जा सकता है, और न ही उत्पादों में इसका कार्यान्वयन OpenAI के प्रसाद के रूप में सुलभ है।

Google एआई के पहले व्यापक रूप से उपलब्ध कार्यान्वयनों में से एक Google डॉक्स और जीमेल में अधिक बुद्धिमान ऑटो-पूर्ण और सुझावों के रूप में था, जिसे स्मार्ट कंपोज़ के रूप में जाना जाता है। हम विवरण में नहीं जाएंगे क्योंकि हमने पहले कवर किया है स्मार्ट कंपोज़ (और आप इसका उपयोग कैसे कर सकते हैं).

जब वे सुविधाएं सक्रिय होती हैं, तो Google के वेब ऐप्स उपयोगकर्ता की टाइपिंग की तुलना लाखों अन्य लोगों द्वारा अतीत में लिखी गई बातों से करते हैं। फिर, यह सुझाव देता है कि उन्होंने बाद में क्या टाइप किया।

यह इस बात का सबूत है कि हम जिस पर विश्वास करना पसंद करते हैं, उसके बावजूद हम इतने अलग नहीं हैं। यदि 100 में से 99 लोग "आपसे मिलते हैं" के बाद "बाद में" टाइप करते हैं, तो शायद हम भी यही टाइप करते रहेंगे।

हम सभी ने "डंबफ़ोन" युग के T9 प्रेडिक्टिव टेक्स्ट सिस्टम में पीछे से भी किसी न किसी रूप में स्वतः पूर्ण का उपयोग किया है। इसलिए Google के AI टूल OpenAI के GPT-3 जितने बुद्धिमान नहीं लगे। 21वीं सदी के लिए बेहतर टी9 प्रणाली में सुधार की तुलना में वे अधिक उपयोग में महसूस नहीं करते थे। और यही वजह है कि इमेजन का खुलासा थोड़ा हैरान करने वाला था।

स्टेरॉयड पर DALL-E की तरह, इमेजेन एक टेक्स्ट विज़ुअलाइज़ेशन टूल है। आज जो उपलब्ध है उसके आधार पर, इमेजेन "क्लीनर" और अधिक विशद इमेजरी का उत्पादन कर सकता है, जबकि यह भी जानता है कि प्रसार और पारदर्शिता जैसी उन्नत सुविधाओं से कैसे निपटें।

दुर्भाग्य से, लेखन के समय, इमेजेन तक पहुंच प्रतिबंधित रहती है, इसलिए हम इसे आज़मा नहीं सके।

DALL-E मिनी एंड फ्रेंड्स: बिजनेस के लिए खुला

आप अभी तक DALL-E और इमेजेन को स्वतंत्र रूप से एक्सेस नहीं कर सकते हैं। फिर भी, कई विकल्प पहले से ही उपलब्ध हैं यदि आप एआई-संचालित टेक्स्ट इमेज जनरेशन के साथ बेवकूफ बनाना चाहते हैं।

यह ध्यान में रखते हुए कि वे शुरुआती दिन हैं, और उनके द्वारा प्रदान किए जाने वाले परिणाम या उपयोगकर्ता अनुभव इष्टतम से बहुत दूर हो सकते हैं, यह अभी भी निम्नलिखित में से कुछ की जाँच करने योग्य है।

दल-ई मिनी के साथ मीम्स बनाना

पर्याप्त से अधिक परिणामों और उपयोगकर्ता के अनुकूल इंटरफेस के संयोजन के लिए धन्यवाद, लेकिन इससे भी महत्वपूर्ण बात यह है कि इसकी व्यापक उपलब्धता, DALL-E मिनी सबसे लोकप्रिय AI टेक्स्ट विज़ुअलाइज़र में से एक बन गया है।

बिल्कुल सही से बहुत दूर, कभी-कभी DALL-E मिनी के परिणाम अपेक्षा से अधिक सारगर्भित हो सकते हैं।

दूसरी बार यह आपके मन में जो कुछ भी था उसे बनाने में असफल हो सकता है लेकिन बहुत करीब हो सकता है।

लोकप्रियता में इसके विस्फोट के बाद, DALL-E मिनी के रचनाकारों ने इसे नई ब्रांडिंग के तहत एक नए घर में स्थानांतरित कर दिया। अब आप DALL-E मिनी का नवीनतम संस्करण इस प्रकार पा सकते हैं: क्रेयोन अपनी साइट पर।

आज क्रेयॉन का उपयोग करना उतना ही आसान है जितना कि किसी मौजूदा छवि को ऑनलाइन खोजना। आप इसकी साइट पर जा सकते हैं, इसके टेक्स्ट फ़ील्ड में अपनी तस्वीर का विवरण टाइप कर सकते हैं और एंटर दबा सकते हैं। थोड़ी देर बाद, आप अपनी स्क्रीन पर परिणाम देखेंगे।

दृश्य शैलियों की नकल करने में क्रेयॉन और इसी तरह के उपकरण कितने अच्छे हैं, यह हड़ताली है। उदाहरण के लिए, हमने इसे स्केटबोर्ड पर एक पिल्ला की छवियों को जोड़ने के लिए कहा है:

फिर, हमने सटीक वाक्यांश का उपयोग किया लेकिन इसके बाद एक "पिक्सर शैली" जोड़ी। कुछ समय बाद, क्रेयॉन ने अधिक "कार्टोनी" छवियों का एक ग्रिड दिखाया, जिसे हम पिक्सर के रे-ट्रेस्ड ग्राफिक्स के रूप में उनकी प्रिय फिल्मों के रूप में देखते हैं।

क्रेयॉन ने हमें और भी बेहतर परिणाम दिए जब हमने "पिक्सर स्टाइल" को "एनीमे स्टाइल" से उसी प्रॉम्प्ट में बदल दिया।

पिक्सर की अधिक यथार्थवादी इमेजरी की तुलना में एनीमे अपनी उपस्थिति में अधिक शैलीबद्ध है, जिससे लगता है कि क्रेयॉन को कुछ लगभग तैयार-से-उपयोग छवियों का उत्पादन करने में मदद मिली है।

गुप्त प्रसार के साथ मूर्ख बनाना

LAION-400M डेटासेट पर प्रशिक्षित अव्यक्त प्रसार मॉडल एक और दिलचस्प AI टेक्स्ट विज़ुअलाइज़र है। हालाँकि, यह इसके उपयोग में अधिक जटिल भी है। आपको इसे एक वर्चुअल मशीन में ऑनलाइन चलाना होगा और केवल टेक्स्ट फ़ील्ड में टाइप करने के बजाय इसके विभिन्न मापदंडों के साथ खेलना होगा। फिर भी, यह जितना लगता है उससे कहीं ज्यादा आसान है।

  1. दौरा करना गूगल लेटेंट डिफ्यूजन कोलाब स्पेस वह वर्तमान में इसका घर है।
  2. थोड़ा नीचे स्क्रॉल करें और ध्यान दें तत्पर के अंतर्गत क्षेत्र मापदंडों. डिफ़ॉल्ट संकेत को उस चीज़ से बदलें जिसे आप अपनी छवि में दिखाना चाहते हैं।
  3. चुनना सभी भागो से क्रम मेनू, या दबाएँ CTRL + F9.
  4. यदि आप उपकरण के भीतर से उत्पादित छवियों को सीधे निर्यात करने में सक्षम होना चाहते हैं, तो यह पूछे जाने पर कि क्या आप इसे अपने Google ड्राइव खाते से लिंक करना चाहते हैं, सकारात्मक उत्तर दें। उपकरण को अपना कॉन्फ़िगरेशन पूरा करने में कुछ समय लगता है और प्रक्रिया के दौरान कुछ फ़ाइलों को डाउनलोड करने की आवश्यकता होती है।

के लिए मूल्यों में वृद्धि कदम, पुनरावृत्तियों, तथा नमूने_इन_समानांतर, अधिक विस्तृत परिणाम दे सकता है। हालांकि, Google के सर्वर पर संसाधनों में उपकरण की अत्यधिक मांग है। परिणामस्वरूप, यदि आप उन मानों को बहुत अधिक बढ़ा देते हैं, या किसी विशेष छवि को बनाने की प्रक्रिया अपेक्षा से अधिक जटिल हो जाती है, तो यह क्रैश हो सकता है।

दिलचस्प विकल्प

हमने DALL-E मिनी और लेटेंट डिफ्यूजन के परीक्षण में काफी समय बिताया है। हमारी वैज्ञानिक पद्धति में दो अलग-अलग भाग शामिल थे। सबसे पहले, हमें उन अवधारणाओं के साथ आना पड़ा, जिन्हें सटीक रूप से बोनकर्स के रूप में वर्णित किया जा सकता है। फिर, उन एआई विज़ुअलाइज़र से उन्हें छवियों में बदलने के लिए कहें। अपेक्षा से अधिक बार, वे उस सामान्य व्यवस्था के करीब आने में सफल हुए, जिसकी हमने कल्पना की थी।

हमने इस लेख के लिए उपलब्ध विकल्पों में से कुछ को भी आजमाया है। हम अभी भी दूसरों तक पहुंच की प्रतीक्षा कर रहे हैं। जाँच के लायक कुछ हैं (किसी विशेष क्रम में नहीं):

  • मध्य यात्रा
  • माइंड्सआई बीटा
  • स्टाररीएआई
  • ख्वाब
  • डिस्को डिफ्यूजन

क्या एआई-जनरेटेड आर्ट विजुअल आर्ट्स की जगह लेगी?

छवि बनाने वाले एआई-संचालित उपकरणों की प्रचुरता और लगातार बढ़ती लोकप्रियता ने कई लोगों को यह निष्कर्ष निकाला है कि दृश्य कला जल्द ही समाप्त हो जाएगी। चीजों की कल्पना करने के लिए जटिल सॉफ़्टवेयर को कैसे आकर्षित या उपयोग करना है, यह जानने के लिए समय और ऊर्जा का निवेश करने का क्या मतलब है जब एक एआई इसे आपसे जल्दी (और जल्द ही बेहतर) कर सकता है?

यदि आपने देखा है, तो वे सभी उपकरण "डेटासेट पर प्रशिक्षित" हैं। सादे अंग्रेजी में, इसका मतलब यह है कि वे वही करते हैं जो वे करते हैं क्योंकि इंसानों ने पहले से ही ऐसा ही किया है।

यही संकेत है कि क्यों वे उपकरण मानव कलात्मकता, रचनात्मकता और सरलता को प्रतिस्थापित नहीं कर सकते हैं। वे मिमिक्री कर रहे हैं, स्मार्ट रेप्लिकेटर। मानव-निर्मित मूल के बिना, जिस पर उन्हें प्रशिक्षित किया गया है, वे कोई भी उत्पादन करने में सक्षम नहीं होंगे।

फिर भी, यह अभी है, और हम स्वीकार करते हैं कि हम नहीं जानते कि भविष्य में क्या होगा। अभी के लिए, दृश्य कलाकार सुरक्षित रूप से सो सकते हैं। जिस दर से एआई विकसित हो रहा है, हालांकि, इस विषय पर कई विशेषज्ञ सहमत हैं कि यह कोई बात नहीं है कि क्या यह कभी आपके जैसे लोगों के काम को सही मायने में बदल देगा। बस कब की बात है।

लेकिन हे, यह सब कयामत और उदासी नहीं है। जबकि स्काईनेट हमारी नौकरी लेने की तैयारी करता है, कम से कम हम स्केटबोर्ड पर पिल्लों की छवियों को सहजता से बनाकर अपने मूड को उज्ज्वल कर सकते हैं!