आप जैसे पाठक MUO का समर्थन करने में मदद करते हैं। जब आप हमारी साइट पर लिंक का उपयोग करके खरीदारी करते हैं, तो हम संबद्ध कमीशन अर्जित कर सकते हैं। और पढ़ें।

ओपनएआई का व्हिस्पर एक नया एआई-संचालित समाधान है जो आपकी आवाज को टेक्स्ट में बदल सकता है। सबसे अच्छा, यह शून्य लागत पर आता है।

हालाँकि, एक पकड़ है: आपकी औसत विंडोज उपयोगिता की तुलना में इसे स्थापित करना और उपयोग करना अधिक चुनौतीपूर्ण है। खासकर यदि आप अपने एनवीडिया जीपीयू के टेंसर कोर का उपयोग इसे अच्छा बढ़ावा देने के लिए करना चाहते हैं।

हालांकि चिंता मत करो। इसलिए हम यहाँ हैं! इसे स्थापित करने और इसका उपयोग करने का तरीका जानने के लिए आगे पढ़ें, लेकिन यह भी, यदि आपके पास व्हिस्पर है, तो अपने एनवीडिया जीपीयू का लाभ उठाएं।

OpenAI की कानाफूसी क्या है?

चैटजीपीटी आजकल बहुत लोकप्रिय है, और हम पहले ही देख चुके हैं आप OpenAI द्वारा ChatGPT का उपयोग कैसे कर सकते हैं. और फिर भी, यह OpenAI की एकमात्र दिलचस्प परियोजना नहीं है।

गहरी शिक्षा और तंत्रिका नेटवर्क द्वारा संचालित, व्हिस्पर एक प्राकृतिक भाषा प्रसंस्करण प्रणाली है जो भाषण को "समझ" सकती है और इसे पाठ में बदल सकती है। लेकिन यह भी अपनी ही बात है, सभी समान समाधानों के बीच एक स्थान पर बैठना:

instagram viewer
  • व्हिस्पर प्राकृतिक भाषा पर "प्रशिक्षित" एक एआई समाधान है। इसलिए, पुराने समाधानों की तुलना में "सामान्य" मानव भाषण को समझना बेहतर है।
  • व्हिस्पर किसी इंटरफ़ेस के साथ नहीं आता है, न ही यह ऑडियो रिकॉर्ड कर सकता है। यह केवल मौजूदा ऑडियो फ़ाइलें और आउटपुट टेक्स्ट फ़ाइलें ले सकता है।
  • चूँकि यह "भाषा की समझ बनाने" में अच्छा है, व्हिस्पर के पास एक ही चरण में स्वचालित अनुवाद की महाशक्ति भी है।
  • व्हिस्पर एक ऑनलाइन सेवा नहीं है और पूरी तरह से ऑफ़लाइन काम कर सकती है।
  • यदि आपके पास अपेक्षाकृत आधुनिक एनवीडिया जीपीयू (जीटीएक्स970 या नया) है, तो व्हिस्पर अपनी गति को बढ़ाने के लिए "हार्डवेयर त्वरित मोड" में चल सकता है।
  • पंजीकरण करने, लाइसेंस खरीदने या सदस्यता खरीदने की कोई आवश्यकता नहीं है।

एएमडी जीपीयू समर्थित क्यों नहीं हैं?

जीपीयू ग्राफिक्स से अधिक उपयोगी होने के लिए, उन्हें पूरी तरह से प्रोग्राम करने योग्य प्रोसेसर के रूप में कार्य करना होगा। इसलिए एनवीडिया ने CUDA बनाया, जिसे आधिकारिक तौर पर "एक समानांतर कंप्यूटिंग प्लेटफॉर्म और प्रोग्रामिंग मॉडल" माना जाता है। CUDA और संबंधित हार्डवेयर ("CUDA कोर") के बारे में अधिक जानने के लिए, हमारा लेख पढ़ें CUDA कोर क्या हैं और वे पीसी गेमिंग में सुधार कैसे करते हैं.

CUDA मालिकाना एनवीडिया तकनीक है, जो केवल एनवीडिया जीपीयू के साथ संगत है। AMD के हार्डवेयर के निकटतम विकल्प OpenCL और Radeon Compute Platform हैं। प्रत्येक कंपनी के समाधानों की तुलना कैसे की जाती है, इस बारे में अधिक जानने के लिए हमारा लेख देखें एएमडी कंप्यूट यूनिट बनाम। एनवीडिया क्यूडा कोर.

विकल्पों की तुलना में, CUDA को अधिक परिपक्व, प्रदर्शन करने वाला और उपयोग में आसान माना जाता है। इस प्रकार, अधिकांश डेवलपर्स केवल CUDA को लक्षित करते हैं, जिसका अर्थ है कि उनका सॉफ़्टवेयर केवल Nvidia GPU पर हार्डवेयर सुविधाओं का लाभ उठाता है। और इसमें व्हिस्पर भी शामिल है।

व्हिस्पर को कैसे डाउनलोड और इंस्टॉल करें

दुर्भाग्य से, व्हिस्पर एक स्टैंडअलोन ऐप नहीं है जिसे आप डाउनलोड, इंस्टॉल और चला सकते हैं। यह अन्य सॉफ्टवेयर पर निर्भर करता है, जिसे भी इंस्टॉल करना होगा।

विंडोज के लिए, इस गाइड को सरल रखने के लिए, हम अधिकांश आवश्यक सॉफ़्टवेयर भागों को स्थापित करने के लिए बड़े पैमाने पर चॉकलेटी का उपयोग करेंगे। पर हमारे गाइड की जाँच करें विंडोज सॉफ्टवेयर इंस्टॉल करने का सबसे तेज तरीका चॉकलेट के बारे में अधिक जानकारी के लिए।

Linux और Mac के लिए, इंस्टॉलेशन प्रक्रिया (Windows पाथ वेरिएबल और हमारे द्वारा बनाई जाने वाली उपयोग में आसान बैच फ़ाइलों को छोड़कर) समान होनी चाहिए।

  1. व्हिस्पर को स्थापित करने और उपयोग करने के लिए, आपके पास होना चाहिए अजगर और इसके रंज उपकरण स्थापित और विंडोज "पथ" चर में जोड़ा गया। उस पर जानकारी के लिए, हमारे लेख की जाँच करें विंडोज, मैक और लिनक्स पर पायथन पीआईपी कैसे स्थापित करें.
  2. स्थापित करना एफएफएमपीईजी इस आदेश के साथ चॉकलेटी के माध्यम से:
    चोको स्थापित करना ffmpeg
    इसके अलावा, इसके पायथन संस्करण को इसके साथ स्थापित करें:
    ip3 स्थापित करना python-ffmpeg
  3. अंत में, व्हिस्पर को इसके जीथब पेज से इनस्टॉल करें:
    पीपी 3 गिट + https स्थापित करें://github.com/openai/whisper.git

व्हिस्पर का CUDA-सक्षम संस्करण प्राप्त करना

हालांकि व्हिस्पर एनवीडिया जीपीयू का उपयोग नहीं करता है, लेकिन मशाल यह जिस पैकेज पर निर्भर करता है वह CUDA-त्वरित संस्करण प्रदान करता है। "प्लेन" संस्करण के बजाय इसका उपयोग करने से व्हिस्पर को आपके एनवीडिया जीपीयू की मदद से अपने ट्रांसक्रिप्शन को बहुत तेजी से पूरा करने में मदद मिल सकती है।

व्हिस्पर को अपने Nvidia GPU के CUDA कोर का उपयोग करने के लिए:

  1. यदि आपके पास पहले से ही टॉर्च का "वेनिला" संस्करण स्थापित है, तो इसके साथ अनइंस्टॉल करें और इसके अवशेषों को शुद्ध करें:
    ip3 स्थापना रद्द करें मशाल
    एक बार यह हो जाने के बाद, इसके साथ पालन करें:
    रंज कैशशुद्ध
  2. इनके साथ टॉर्च का CUDA-सक्षम संस्करण स्थापित करें:
    ip3 स्थापित करना टॉर्च टॉर्चविजन टॉर्च ऑडियो --extra-index-url https://download.pytorch.org/whl/cu117
  3. यह जांचने के लिए कि क्या व्हिस्पर आपके एनवीडिया जीपीयू का उपयोग कर सकता है, उपयोग करें:
    फुसफुसाना --मदद | Findstr -i pytorch
    तुम्हें देखना चाहिए (डिफ़ॉल्ट: क्यूडा) के बजाय (डिफ़ॉल्ट: सीपीयू).

अगर टॉर्च स्थापित करने में विफल हो तो क्या करें

यदि आप टॉर्च स्थापित करते समय "कोई संस्करण नहीं मिला" त्रुटि का सामना करते हैं, तो आपको अपने वर्तमान के समानांतर पायथन के पुराने संस्करण को स्थापित करने की आवश्यकता हो सकती है।

ऐसा करने के लिए इस आदेश का प्रयोग करें:

चोको स्थापित करना अजगर --संस्करण OLDER_VERSION -- साथ-साथ

"OLDER_VERSION" को किसी संस्करण से बदलें, जैसे 3.10.

फिर, सभी "जेनेरिक" व्हिस्पर कमांड के लिए द्वितीयक संस्करण के पथ का उपयोग करें (उदाहरण के लिए, "c:\Python310\Scripts\pip.exe" केवल "pip" के बजाय)।

अपनी आवाज कैसे रिकॉर्ड करें

आप अपनी आवाज़ को WAV या MP3 फ़ाइल में बदलने के लिए किसी भी साउंड-रिकॉर्डिंग ऐप का उपयोग कर सकते हैं। विंडोज़ में ऐसा ऐप शामिल है—उस पर अधिक जानकारी के लिए, देखें विंडोज 10 वॉयस रिकॉर्डर ऐप का उपयोग कैसे करें.

अधिक पूर्ण विशेषताओं वाले विकल्प के लिए, प्रयास करें धृष्टता. हमारे गाइड के साथ इसे करना सीखें विंडोज और मैक पर ऑडियो रिकॉर्ड करने के लिए ऑडेसिटी का उपयोग कैसे करें.

कानाफूसी के साथ लिप्यंतरण कैसे शुरू करें

हालांकि व्हिस्पर उपयोगकर्ता के अनुकूल जीयूआई के साथ नहीं आता है, इसका उपयोग अति-सरल है।

मान लीजिए कि हमारे पास फाइल है नवीनतम नोट.mp3 जिसमें फ़ोल्डर में ग्रीक में भाषण है सी: MyAudioFiles, और इसे अंग्रेजी में अनुवादित करना चाहते हैं और इसे एक पाठ फ़ाइल में लिप्यंतरित करना चाहते हैं।

  1. हम दौड़कर शुरू करते हैं सही कमाण्ड या पावरशेल.
  2. हम "निर्देशिका बदलते हैं" जहां इस आदेश के साथ ऑडियो फ़ाइल संग्रहीत की जाती है:
    सीडी सी: MyAudioFiles
  3. हम निम्नलिखित के साथ फ़ाइल पर व्हिस्पर खोलते हैं:
    फुसफुसाना--नमूनाआधार--भाषाजीआर--कामअनुवादनवीनतम नोट।एमपी 3

एक बार संसाधित हो जाने पर, पाठ फ़ाइल ("LatestNote.mp3.txt" नाम से) उसी फ़ोल्डर में दिखाई देगी। इसे टेक्स्ट एडिटर की तरह खोलें नोटपैड अनुवादित पाठ देखने के लिए।

हमने एक अनुवाद उदाहरण का उपयोग किया क्योंकि अंग्रेजी ट्रांसक्रिप्शन और भी सीधा है: आपको केवल "-भाषा" और "-टास्क" झंडे को "खोना" है। इस प्रकार, सादे प्रतिलेखन के लिए, उपरोक्त आदेश होगा:

फुसफुसाना--नमूनाआधारनवीनतम नोट।एमपी 3

"मॉडल" फ़्लैग आवश्यक है क्योंकि व्हिस्पर विभिन्न विकल्पों में से किसी एक का उपयोग करता है। अपनी आवश्यकताओं के लिए सर्वश्रेष्ठ चुनने में आपकी सहायता करने के लिए आइए उन पर विस्तार करें।

कौन सा मॉडल चुनना है?

व्हिस्पर विभिन्न भाषा मॉडल प्रदान करता है। मॉडल जितना बड़ा होगा, इसकी सटीकता में उतना ही सुधार होगा, लेकिन इसकी हार्डवेयर आवश्यकताएं भी उतनी ही अधिक होंगी। वे हैं:

  1. छोटा।
  2. आधार।
  3. छोटा।
  4. मध्यम।
  5. बड़ा।

अधिकांश देशी अंग्रेजी बोलने वालों को इसके साथ ठीक होना चाहिए छोटा या आधार मॉडल। गैर-देशी अंग्रेजी बोलने वाले बड़े मॉडल के साथ बेहतर परिणाम देख सकते हैं, जैसे छोटा और मध्यम.

हालाँकि, ध्यान दें कि मध्यम और बड़े मॉडल के लिए 8GB से अधिक VRAM (अर्थात, "आपके GPU की मेमोरी") की आवश्यकता होती है।

उनमें से एक का चयन करने के लिए, कमांड में "--मॉडल" स्विच के बाद मॉडल निर्दिष्ट करें:

फुसफुसाना --मॉडल छोटा/छोटा/मध्यम/बड़ा [फ़ाइल]

उदाहरण के लिए:

फुसफुसाना--नमूनाछोटाMy_Voice_Note।एमपी 3

अपने ट्रांसक्रिप्शन को कैसे कारगर बनाएं

हर बार जब आप कुछ ऑडियो का लिप्यंतरण करना चाहते हैं तो पूरा व्हिस्पर कमांड टाइप करना जल्दी से उबाऊ हो सकता है। प्रक्रिया को सुव्यवस्थित करने के लिए आइए विश्व स्तर पर सुलभ बैच फ़ाइल बनाएं।

  1. दौड़ना विंडोज़ एक्सप्लोरर और अपने C: ड्राइव पर जाएँ।
  2. अपनी स्क्रिप्ट के लिए एक फोल्डर बनाएं, और उसके पाथ को क्लिपबोर्ड पर कॉपी करें।
  3. Windows प्रारंभ मेनू में, "पथ" खोजें और चुनें सिस्टम पर्यावरण चर संपादित करें.
  4. खोजें पथ चर के तहत आपके_USERNAME के ​​लिए उपयोगकर्ता चर. इसे संपादित करने के लिए डबल क्लिक करें। पर क्लिक करें नया, और पथ को अपने स्क्रिप्ट फ़ोल्डर में पेस्ट करें। पर क्लिक करें ठीक परिवर्तनों को स्वीकार करने के लिए।
  5. विंडोज एक्सप्लोरर में अपने स्क्रिप्ट फोल्डर पर लौटें। वहां "wht.bat" नाम से एक नई बैच फ़ाइल बनाएँ। इसे "अंदर", यह आदेश दें:
    फुसफुसाना --मॉडल नन्हा--भाषा en % 1
  6. दो और बैच फ़ाइलें बनाएँ, "whs" और "whm"।
  7. इसे पहली स्क्रिप्ट के अंदर रखें:
    फुसफुसाना --मॉडल छोटा --भाषा en % 1
  8. इसे दूसरे के अंदर रखें:
    फुसफुसाना --मॉडल माध्यम --भाषा en % 1

बधाई हो, अब आपके पास अपनी ऑडियो फाइलों के साथ व्हिस्पर के छोटे, छोटे और मध्यम मॉडल का आसानी से उपयोग करने के लिए तीन स्क्रिप्ट हैं! किसी ऑडियो फ़ाइल को टेक्स्ट में ट्रांसक्राइब करने के लिए:

  1. के साथ फ़ाइल का पता लगाएँ विंडोज फाइल एक्सप्लोरर.
  2. दाएँ क्लिक करें एक खाली जगह पर और चुनें टर्मिनल में खोलें.
  3. छोटी या मध्यम भाषा के मॉडल का उपयोग करने के लिए "wht" को "whs" या "whm" से बदलकर यह कमांड टाइप करें:
    क्याआपकी_ऑडियो_फ़ाइल।एमपी 3

कानाफूसी के साथ ध्वनि की गति से टाइप करना

यहां तक ​​कि सबसे तेज टच-टाइपिस्ट भी उस गति की बराबरी नहीं कर सकते, जिस गति से हम बोलते हैं। हालाँकि, हाल तक, दस्तावेज़ बनाने के लिए टाइप करने के बजाय बात करना इष्टतम नहीं था।

अधिकांश वॉयस-टू-टेक्स्ट समाधान औसत दर्जे के परिणाम देते हैं। आपको कोशिश करने लायक कुछ समाधान मिल सकते हैं, लेकिन वे उपयोग करने में जटिल थे, या महंगे थे। शुक्र है, व्हिस्पर ने वह सब बदल दिया।

ऊपर दिए गए चरणों के बाद, आपको केवल एक आदेश का उपयोग करके अपनी आवाज़ को उच्च सटीकता के साथ लिप्यंतरित या अनुवाद करने के लिए तैयार होना चाहिए।