डीपफेक संगीत किसी विशेष कलाकार की आवाज सहित उनकी शैली की नकल करता है। यह इतना वास्तविक कैसे लग सकता है?

लंबे समय तक, संगीत डीपफेक की दुनिया से बचने में सक्षम था क्योंकि यह किसी की आवाज़ को संश्लेषित करने के लिए बहुत जटिल था। एआई प्रौद्योगिकी में प्रगति के साथ यह सब बदल गया। इसके परिणामस्वरूप प्रसिद्ध कलाकारों की आवाज के क्लोन बन गए हैं जिनका उपयोग नए स्वर ट्रैक बनाने के लिए किया जा सकता है।

एआई उपकरण औसत लोगों के लिए अधिक सुलभ होने के साथ, डीपफेक संगीत एक बढ़ती हुई समस्या है। यहां बताया गया है कि यह क्या है और इसे कैसे बनाया जाता है।

डीपफेक संगीत का विकास

जब आप अपने पसंदीदा कलाकार को Spotify या YouTube पर गाते हुए सुनते हैं, तो आप शायद ही सोचते हैं कि यह नकली हो सकता है, लेकिन AI के विकास ने इसे एक वास्तविकता बना दिया है। नकली तस्वीरों और वीडियो के साथ-साथ डीपफेक म्यूजिक भी मौजूद है।

एआई उपकरण एक एआई मॉडल को उनकी आवाज के ऑडियो नमूनों पर प्रशिक्षित करके किसी व्यक्ति की गायन आवाज को ईमानदारी से पुन: पेश कर सकते हैं। कलाकार के प्रशंसकों, या एआई तकनीक के प्रशंसकों द्वारा निर्मित, अधिक लोग मुखर डोपेलगेंजर्स बनाने का प्रयास कर रहे हैं।

instagram viewer

लोग वर्षों से कंप्यूटर का उपयोग करके आवाज को संश्लेषित करने की कोशिश कर रहे हैं, 1961 तक जब आईबीएम 7094 गायन करने वाला पहला कंप्यूटर था। आप सुन सकते हैं YouTube क्लिप में कंप्यूटर जनित आवाज़ डेज़ी बेल गा रही है और कल्पना करने की कोशिश करें कि यह पल कितना अद्भुत था।

21वीं सदी के लिए तेजी से आगे बढ़ना और एआई तकनीक दोनों ने संश्लेषित आवाज की गुणवत्ता में सुधार किया है और हमें ऐसे काम करने की अनुमति दी जो हममें से अधिकांश ने अब तक संभव नहीं सोचा था, जैसे लोगों की आवाज़ का क्लोन बनाना।

रॉबर्टो निकसन की इस क्लिप पर एक नज़र डालें, जो अपनी आवाज़ को कलाकार और रैपर कान्ये वेस्ट में बदल रही है। वीडियो देखने में अजीब लगता है, यह वास्तव में कान्ये जैसा लगता है, लेकिन यह देखने में भी असहज है। कलाकार कैसे सोच या महसूस कर सकता है, इस बारे में बहुत अधिक विचार किए बिना, और बिना अनुमति के, इसे किसी की आवाज़ को हड़पने के रूप में देखा जा सकता है।

डेज़ी बेल के कंप्यूटर संस्करण के विपरीत, एआई वोकल क्लोनिंग की सटीक समानता को पुन: उत्पन्न करने में सक्षम है किसी की आवाज़, जिसमें लय में सभी सूक्ष्म अंतर शामिल हैं जो हमें किसी के अद्वितीय स्वर की पहचान करने में मदद करते हैं प्रोफ़ाइल। बिना लाइसेंस के, और बिना अनुमति के किया गया, हालांकि, डीपफेक संगीत में कुछ गंभीर समस्याएं हैं, जिन पर हम बाद में विचार करेंगे।

डीपफेक गाने कैसे बनते हैं

डीपफेक गाने बनाने के लिए अलग-अलग तरीकों का इस्तेमाल किया जा रहा है लेकिन उनमें से कई एआई तकनीक का इस्तेमाल करते हैं। ओपन-सोर्स प्रोजेक्ट्स जैसे GitHub पर सॉफ्टवीसी वीआईटीएस सिंगिंग वॉयस कन्वर्जन प्रोजेक्ट, उदाहरण के लिए, एक एआई मॉडल विकसित किया है जो अपने नाम में जो कहता है वह करता है: एक ऑडियो नमूना को एक गायन आवाज में परिवर्तित करता है।

यह मॉडल किसी के गाने की मौजूदा ऑडियो फ़ाइल लेता है और उसे किसी और की आवाज़ में बदल देता है। मूल आवाज के बोल और लय जैसी चीजें रखी जाती हैं, लेकिन स्वर, समय और व्यक्तिगत मुखर गुण प्रशिक्षण डेटासेट द्वारा निर्दिष्ट आवाज में परिवर्तित हो जाते हैं।

ध्यान रखें कि गीत के अन्य भागों को अभी भी मैन्युअल रूप से निर्मित किया जा सकता है, जैसे मूल कलाकार के समान शैली और शैली में ताल और धुन बनाना।

कान्ये वेस्ट की आवाज का डीपफेक बनाने के लिए, एक तीसरे पक्ष के डेटासेट को सॉफ्टवीसी वीआईटीएस मॉडल में इनपुट करना पड़ा, जिसमें असली कान्ये की आवाज के नमूने शामिल होंगे। डेटासेट वाली फ़ाइल को तब से लेखक द्वारा हटा दिया गया है, जो अनधिकृत डेटासेट के साथ आने वाले धुंधले कानूनी क्षेत्र को देखते हुए आश्चर्यजनक नहीं है।

हालांकि इसे व्यावसायिक ऐप में नहीं बदला गया है, आप इसका एक संस्करण पा सकते हैं Google Collab पर सॉफ्टवीसी वीआईटीएस मॉडल यह अधिक उपयोगकर्ता के अनुकूल है।

जब तक नैतिक और कानूनी सीमाओं को स्थापित नहीं किया जाता है, तब तक यह संभव है कि उपयोग में आसान वॉयस क्लोनिंग ऐप्स पॉप अप - Drayk.it ऐप से बहुत अलग नहीं है, जिसने एक टेक्स्ट विवरण को कलाकार के बाद स्टाइल किए गए गीतों में बदल दिया ड्रेक। बाद में इसे बंद कर दिया गया।

कुछ अन्य उपकरण जिनका उपयोग डीपफेक संगीत बनाने के लिए किया जाता है, उनमें बड़े भाषा मॉडल शामिल हैं चैटजीपीटी, जिसका उपयोग प्रसिद्ध कलाकार की शैली में गीत लिखने के लिए किया जा सकता है; और OpenAI का ज्यूकबॉक्स और Google का MusicLM, जो जेनेरेटिव एआई मॉडल हैं जो पूरी तरह से शुरू से कच्चे ऑडियो रूप में संगीत बना सकते हैं।

क्या आप अंतर सुन सकते हैं?

घोस्टराइटर नामक एक अनाम उपयोगकर्ता द्वारा बनाया गया एक ट्रैक अप्रैल 2023 में टिकटॉक पर वायरल हो गया, कोई छोटा हिस्सा नहीं क्योंकि इसमें कलाकार ड्रेक और द वीकेंड द्वारा गाए गए गीत थे। बेशक, ये कलाकारों की असली आवाजें नहीं थीं, बल्कि नकली थीं।

अगर स्वर मूल की इतनी अच्छी प्रति नहीं होते, तो शायद यह हिट नहीं होता। थोड़ी सी खुदाई के साथ, आप बहुत तेजी से पता लगा सकते हैं कि यह असली सौदा था या नहीं, लेकिन केवल अपने कानों का उपयोग करके, आप केवल अनुमान लगा सकते हैं कि यह प्रामाणिक था या नहीं।

यदि आप चाहते हैं एआई-जनित छवि की पहचान करें कम से कम कुछ दृश्य विपथन हैं जिन्हें आप देख सकते हैं। ऑडियो के लिए, लो-फिडेलिटी ऑडियो या ट्रैक में गड़बड़ जैसे संकेत ज्यादा मायने नहीं रखते हैं क्योंकि वे हर समय संगीत उत्पादन में उपयोग किए जाने वाले रचनात्मक विकल्प हैं।

और भी दिलचस्प बात यह है कि बहुत से लोग वास्तव में गाने को पसंद करते हैं, भले ही उन्हें पता चला कि यह ड्रेक या द वीकेंड की असली आवाज नहीं थी। प्रशंसकों ने बताया कि एआई के साथ सब कुछ बस उत्पन्न नहीं हुआ था, और यह वास्तविक कौशल और काम गीत लिखने, धड़कनों की रचना करने और पूरी चीज को एक साथ रखने में चला गया।

आने वाले दिनों में इसे हटाने से पहले ट्रैक ने इसे Spotify और YouTube पर बनाया, लेकिन इससे पहले प्रशंसकों ने गाने को mp3 के रूप में डाउनलोड नहीं किया था। यदि आप "हार्ट ऑन माई स्लीव, ड्रेक फीट" खोजते हैं, तो आप अभी भी गाने की प्रतियां ऑनलाइन पा सकते हैं। सप्ताहांत"।

जल्द ही, एआई-जनित वोकल क्लोन और वास्तविक मानव आवाज के बीच अंतर को पहचानना लगभग असंभव हो जाएगा। इसे ध्यान में रखते हुए, लोग सवाल कर रहे हैं कि क्या यह पहली बार में एआई तकनीक का अच्छा उपयोग है, या इसका कानूनी उपयोग भी है।

डीपफेक संगीत के साथ समस्याएँ

एक ओर, लोग अपने पसंदीदा कलाकारों के फैन-निर्मित मैशअप को सुनने का आनंद लेते हैं और उस रचनात्मकता का सम्मान करते हैं जो इसे वास्तविकता बनाने में जाती है। लेकिन पहले स्थान पर वोकल क्लोन रखने की क्षमता डेटासेट पर निर्भर करती है जो अधिकृत हो भी सकती है और नहीं भी।

अनुमति के बिना, किसी व्यक्ति की आवाज़ के नमूने एक डेटासेट में एकत्र किए जाते हैं, जिसका उपयोग AI आवाज़ रूपांतरण मॉडल को प्रशिक्षित करने के लिए किया जाता है। द्वारा सामना की जाने वाली समस्या के समान है वे कलाकार जो अपनी छवियों को प्रशिक्षण डेटासेट से हटाना चाहते हैं जिनका उपयोग एआई इमेज जेनरेटर जैसे डल-ई या मिडजर्नी को प्रशिक्षित करने के लिए किया जाता है।

कॉपीराइट कानून भी डीपफेक संगीत से निपटने के लिए पूरी तरह तैयार नहीं है। 2020 में, कलाकार जे-जेड YouTube को विलियम शेक्सपियर के "टू बी ऑर नॉट टू बी" सॉलिलोकी से रैपिंग लाइन्स के एआई-जेनरेट किए गए ऑडियो को लेने के लिए मजबूर करने की कोशिश में विफल रहा।

जब कोई डीपफेक गाना Spotify या YouTube पर अपलोड किया जाता है, तो यह भी सवाल होता है कि पैसे कौन कमा रहा है। क्या आपको किसी ऐसे गाने पर पैसा कमाने में सक्षम होना चाहिए जो किसी और की आवाज़ को लगभग बिल्कुल कॉपी करता हो?

होली हेरंडन एक कलाकार है जिसने मूल काम बनाने के लिए अपनी आवाज मॉडल का उपयोग करने के बदले में लोगों को मुआवजा देने के लिए एक प्रणाली बनाने की कोशिश की है। जबकि निक केव जैसे अन्य कलाकारों के पास है एआई के खिलाफ बोला, लिखना:

गीत पीड़ा से उत्पन्न होते हैं, जिसका अर्थ है कि वे सृजन के जटिल, आंतरिक मानव संघर्ष पर आधारित हैं और, जहाँ तक मुझे पता है, एल्गोरिदम महसूस नहीं करते हैं।

कभी-कभी, एआई-जनित पाठ में रचनात्मकता की कमी हो सकती है कुल मिलाकर अभी तक वे अभी भी ऑनलाइन पोस्ट किए जाते हैं। एआई का परिणाम बहुत खराब संगीत हो सकता है जिसमें बहुत कम प्रयास किया गया हो।

संगीत और एआई के बीच संतुलन ढूँढना

डीपफेक संगीत एआई टूल्स और एआई मॉडल का उपयोग करके बनाया गया है जिन्हें अनधिकृत डेटासेट पर प्रशिक्षित किया गया है। कुछ मॉडल ओपन-सोर्स और स्वतंत्र रूप से सुलभ हैं, जबकि अन्य प्रयास उन्हें उपयोगकर्ता के अनुकूल ऐप में पैकेज करने के लिए किए गए हैं।

जैसे-जैसे अधिक से अधिक लोग डीपफेक संगीत मॉडल या ऐप पर अपना हाथ बढ़ा रहे हैं, यह कलाकार पर पड़ने वाले प्रभाव के बारे में सोचने लायक है। प्रशिक्षण डेटासेट के लिए सहमति प्राप्त करना और कलाकार के लिए मुआवज़ा एआई संगीत प्रौद्योगिकी पर उभरने वाली कुछ समस्याएं हैं।