टेक्स्ट प्रांप्ट से संगीत उत्पन्न करने की अपनी क्षमता के साथ Google का MusicLM आशाजनक लग रहा था। लेकिन परीक्षण करने के बाद, यह काफी हद तक वितरित नहीं हुआ।

जनवरी 2023 में, Google ने MusicLM की घोषणा की, एक प्रायोगिक AI उपकरण जो पाठ विवरण के आधार पर संगीत उत्पन्न कर सकता है। समाचार के साथ-साथ, Google ने MusicLM के लिए एक आश्चर्यजनक शोध पत्र जारी किया जिसने बहुत से लोगों को पतली हवा से संगीत को आकर्षित करने की क्षमता पर चकाचौंध कर दिया।

एक पाठ संकेत दिए जाने पर, मॉडल ने उच्च निष्ठा संगीत का उत्पादन करने का वादा किया, जो प्रसिद्ध कलाकृतियों का वर्णन करने वाले शैली से उपकरण से अमूर्त कैप्शन तक सभी प्रकार के विवरणों पर वितरित किया गया। अब जबकि MusicLM जनता के लिए खुला है, हमने इसका परीक्षण करने का निर्णय लिया है।

Google का AI म्यूजिक जेनरेटर बनाने का प्रयास

रेडी-टू-प्ले ट्रैक में "रिलैक्सिंग जैज़" जैसे टेक्स्ट प्रॉम्प्ट को चालू करना यकीनन एआई संगीत में प्रयोगों की पवित्र कब्र है। Dall-E या Midjourney जैसे प्रसिद्ध AI छवि जनरेटर के समान, आपको संगीत की थोड़ी सी भी जानकारी होने की आवश्यकता नहीं है कि कैसे एक ट्रैक का निर्माण किया जाए जिसमें एक राग और ताल हो।

instagram viewer

मई 2023 में, जिन लोगों ने Google के AI टेस्ट किचन में साइन अप किया था, वे पहली बार डेमो को आज़मा सकते हैं। एक उपयोगकर्ता के अनुकूल वेब पेज और कुछ मार्गदर्शक नियमों-इलेक्ट्रॉनिक और शास्त्रीय द्वारा स्वागत किया गया वाद्ययंत्र सबसे अच्छा काम करते हैं, और "वाइब" निर्दिष्ट करना न भूलें - संगीत का एक स्निपेट बनाना है अकल्पनीय रूप से आसान।

स्पीड उन कुछ चीजों में से एक है जो अपेक्षाकृत उच्च निष्ठा के नमूनों के साथ MusicLM वास्तव में प्रदान करता है। हालाँकि, सही परीक्षण को केवल स्टॉपवॉच से नहीं मापा जाना था। क्या MusicLM कुछ शब्दों के आधार पर वास्तविक, सुनने योग्य संगीत तैयार कर सकता है? बिल्कुल नहीं (हम इस पर जल्द ही पहुंचेंगे)।

Google के AI टेस्ट किचन में MusicLM का उपयोग कैसे करें

MusicLM का उपयोग करना आसान है, जिसके लिए आप प्रतीक्षा सूची में साइन अप कर सकते हैं Google का AI टेस्ट किचन यदि आप इसे आज़माना चाहते हैं।

वेब ऐप पर, आपको एक टेक्स्ट बॉक्स दिखाई देगा, जहां आप कुछ शब्दों से लेकर कुछ वाक्यों तक का संकेत दे सकते हैं, जिसमें आप जिस तरह का संगीत सुनना चाहते हैं, उसका वर्णन कर सकते हैं। सर्वोत्तम परिणामों के लिए, Google आपको "बहुत वर्णनात्मक होने" की सलाह देता है, यह कहते हुए कि आपको संगीत की मनोदशा और भावना को शामिल करने का प्रयास करना चाहिए।

जब आप तैयार हों, तो प्रोसेसिंग शुरू करने के लिए एंटर दबाएं। लगभग 30 सेकंड के भीतर, आपके ऑडिशन के लिए दो ऑडियो स्निपेट उपलब्ध होंगे। दोनों में से, आपके पास आपके संकेत से मेल खाने वाले सर्वश्रेष्ठ नमूने को ट्रॉफी देने का विकल्प है, जो बदले में Google को मॉडल को प्रशिक्षित करने और उसके आउटपुट को बेहतर बनाने में मदद करता है।

MusicLM कैसा लगता है

मनुष्य कम से कम 40,000 साल पहले से संगीत बना रहा है, इस बात का कोई निश्चित विचार नहीं है कि संगीत भाषा के विकास के पहले, बाद में, या उसी समय आया था। तो कुछ मायनों में, यह आश्चर्य की बात नहीं है कि MusicLM ने इस प्राचीन सार्वभौमिक कला के कोड को पूरी तरह से हल नहीं किया है।

Google का MusicLM शोध पत्र ने सुझाव दिया कि MusicLM प्रसिद्ध कलाकृतियों से संबंधित कैप्शन से संगीत उत्पन्न कर सकता है और अनुसरण कर सकता है अलग-अलग अनुक्रम के बाद शैली या मनोदशा को सुचारू रूप से बदलने जैसे निर्देश संकेत देता है।

हालांकि, इतने लंबे ऑर्डर तक पहुंचने से पहले, हमने पाया कि MusicLM को पहले दूर करने के लिए कई मूलभूत समस्याएं थीं।

टेंपो से चिपके रहने में परेशानी

किसी भी संगीतकार का सबसे बुनियादी काम बस समय पर खेलना है। दूसरे शब्दों में, टेम्पो से चिपके रहें। आश्चर्यजनक रूप से, ऐसा कुछ नहीं है जो MusicLM 100% समय पर कर सकता है।

वास्तव में, एक ही संकेत का 10 बार उपयोग करने से, जो 20 संगीत ट्रैक उत्पन्न करता है, केवल तीन समय में थे। शेष 17 नमूने निर्दिष्ट गति से तेज़ या धीमे थे जो "बीट्स प्रति मिनट" में लिखा गया था, जो संगीत का वर्णन करने के लिए व्यापक रूप से इस्तेमाल किया जाने वाला शब्द है।

इस उदाहरण में, हमने प्रांप्ट का उपयोग किया "एकल शास्त्रीय पियानो 80 बीट प्रति मिनट, शांतिपूर्ण और ध्यान पर बजाया गया"। करीब से सुनने पर, संगीत अक्सर छोटे नमूने की लंबाई के भीतर तेज या धीमा हो जाता है।

संगीत में तेज ताल की भी कमी थी और ऐसा लगता था जैसे किसी ने टुकड़े के बीच में नाटक को हिट कर दिया हो। यह जानबूझकर किया गया था या नहीं, यह तय करना कठिन हो जाता है कि क्या MusicLM वास्तव में बीट से चिपके रहने के शीर्ष पर संगीत के एक टुकड़े की उचित शुरुआत या अंत कर सकता है।

यादृच्छिक साधन चयन

शायद MusicLM ने अभी तक सख्त समय में बजाना नहीं सीखा था, इसलिए हम दूसरे सामान्य संगीत पैरामीटर पर चले गए। हम यह देखना चाहते थे कि क्या यह कुछ लिखतों के लिए हमारे अनुरोध को स्वीकार करेगा।

हमने कई अलग-अलग संकेत लिखे जिनमें "सोलो सिंथेसाइज़र" और "सोलो बास गिटार" जैसे विवरण शामिल थे। अन्य "स्ट्रिंग चौकड़ी" या "जैज़ बैंड" जैसे बड़े समूह थे। कुल मिलाकर, ऐसा लग रहा था कि 50:50 संभावना है कि आपने जो मांगा है वह आपको मिलेगा।

एक सिद्धांत यह है कि मॉडल कुछ उपकरणों को लोकप्रिय संगीत शैलियों के साथ जोड़ता है। उदाहरण के लिए, प्रॉम्प्ट "सोलो सिंथेसाइज़र, कॉर्ड प्रोग्रेशन" लें। जीवंत और उत्साहित". अपने आप एक सिंथेसाइज़र ध्वनि प्राप्त करने के बजाय, MusicLM ने ड्रम और बास के साथ एक इलेक्ट्रॉनिक ट्रैक तैयार किया।

यह संभव है कि किसी उपकरण के विशिष्ट अनुरोध को समझने के लिए मॉडल के पास पर्याप्त डेटा और पर्याप्त प्रशिक्षण न हो।

स्वर समीकरण से बाहर हैं

उस समय के प्रतिबंधों के अनुसार, मॉडल स्वर युक्त संगीत का उत्पादन नहीं करेगा। MusicLM के कांटेदार कॉपीराइट मुद्दे और बग्गी वोकल्स Google ने इस सीमा को निर्धारित करके इसे सुरक्षित खेलने के लिए क्यों चुना, इसका एक संभावित कारक है।

लेकिन MusicLM के साथ कुछ समय तक प्रयोग करने के बाद, हमने महसूस किया कि मॉडल के आउटपुट पर Google का नियंत्रण पूरी तरह आयरनक्लाड नहीं था। अजीब तरह से, "ध्वनिक गिटार" जैसा एक संकेत एक ट्रैक का निर्माण करेगा जिसमें पृष्ठभूमि में भूत-जैसे स्वर होते हैं जो मफल और दूर की आवाज़ करते हैं।

हालांकि यह एक सामान्य घटना नहीं है, लेकिन यह आपको MusicLM की कायल स्वर बनाने की क्षमता के बारे में सोचने पर मजबूर कर देता है।

VOCALOID और सिंथेसाइज़र V जैसे सॉफ़्टवेयर के साथ आगे बढ़ रहे हैं एआई-असिस्टेड वोकल सिंथेसिस तकनीक, वर्तमान मॉडल से वोकल्स को छोड़ कर हमें आश्चर्य होता है कि क्या यह अभी तक मौजूदा तकनीक के खिलाफ प्रतिस्पर्धा करने के लिए पर्याप्त नहीं है। MusicLM को अभी लंबा रास्ता तय करना है, इससे पहले कि संगीतकार इसके गुणगान गाते।

एआई संगीत जेनरेटर का भविष्य

जबकि MusicLM ने जनरेटिव AI संगीत तकनीक को आगे बढ़ाया है, इसे संगीत उद्योग में व्यावहारिक कार्य करने से पहले स्कूल वापस जाने और कुछ और चीजें सीखने की आवश्यकता है।

अब से पहले, जनरेटिव AI संगीत का सबसे अच्छा प्रयास OpenAI द्वारा JukeboxAI नामक एक मॉडल था। यह वास्तव में उपयोग के लिए तैयार स्थिति में नहीं था, और केवल एक मिनट का संगीत प्रस्तुत करने में नौ घंटे का समय लगा।

आपके प्रयासों के लिए, आपको ऑडियो विकृति और कलाकृतियों से भरा हुआ वास्तव में एलियन-साउंडिंग ट्रैक वापस मिलने की संभावना थी। उल्टा, आप ऊबने वाले नहीं थे ज्यूकबॉक्स द्वारा रचित विचित्र कृतियों को सुनना.

इसके आलोक में, MusicLM ने उपयोगकर्ता के अनुकूल AI संगीत जनरेटर की दिशा में कुछ महत्वपूर्ण प्रगति की है। जब आप यह सोचना बंद कर देते हैं कि कच्चे ऑडियो रूप में संगीत उत्पन्न करना कितना जटिल है, तो हम इसके यादृच्छिक आउटपुट के लिए मॉडल को लगभग क्षमा कर सकते हैं।

हालांकि, मॉडल को काम में लाने के बाद, Google ने अपने शुरुआती शोध पत्र में जो प्रकाशित किया था, उसकी तुलना में MusicLM आधा-पका हुआ महसूस करता है। शायद ही कभी एआई छवि जनरेटर को ऐप्पल की छवि गलत मिलती है, वैसे ही एआई संगीत जनरेटर को गति और उपकरणों की तरह कुछ मूल बातें मिलनी चाहिए।

Google का MusicLM उम्मीदों पर खरा नहीं उतरा

एआई के मोर्चे पर एक-दूसरे से प्रतिस्पर्धा करने के लिए टेक कंपनियों की दौड़ के साथ, MusicLM को ऐसा लगता है जैसे यह तैयार होने से पहले सार्वजनिक परीक्षणों में प्रवेश कर गया हो। मूल सिद्धांतों को ठीक करने के बदले, मॉडल संगीत निर्माण के लिए कहीं अधिक अस्पष्ट और व्यक्तिपरक दृष्टिकोण लेता है।

Google आपको अपने संकेत के साथ विशिष्ट होने के लिए प्रोत्साहित कर सकता है, लेकिन यह गति को अच्छी तरह से नहीं संभाल सकता है, और आपको हर बार आपके द्वारा मांगे गए उपकरणों को प्राप्त करने की गारंटी नहीं है। MusicLM दिलचस्प हो सकता है, और शक्तिशाली AI अग्रिमों का एक अच्छा प्रदर्शन है, लेकिन यदि संगीत अंतिम लक्ष्य है तो इसे अभी भी एक लंबा रास्ता तय करना है।