ChatGPT के निर्माताओं के पास एक और उपकरण है जिसका उद्देश्य आपकी उंगलियों के भार को कम करना है।

चैटजीपीटी के पीछे उन्हीं लोगों ने एक और एआई-आधारित टूल बनाया है जिसका उपयोग आज आप अपनी उत्पादकता को बढ़ाने के लिए कर सकते हैं। हम व्हिस्पर की बात कर रहे हैं, एक वॉयस-टू-टेक्स्ट समाधान जिसने इससे पहले आए सभी समान समाधानों को ग्रहण कर लिया।

आप अपने प्रोग्राम या कमांड लाइन में व्हिस्पर का उपयोग कर सकते हैं। और फिर भी, यह अपने उद्देश्य को हरा देता है: बिना कीबोर्ड के टाइप करना। यदि आपको इसका उपयोग करने के लिए टाइप करने की आवश्यकता है, तो टाइपिंग से बचने के लिए इसका उपयोग क्यों करें? शुक्र है, अब आप डेस्कटॉप जीयूआई के माध्यम से व्हिस्पर का उपयोग कर सकते हैं। इससे भी बेहतर, यह लगभग रीयल टाइम में आपकी आवाज़ को ट्रांसक्रिप्ट भी कर सकता है। आइए देखें कि व्हिस्पर डेस्कटॉप का उपयोग करके आप अपनी आवाज से कैसे टाइप कर सकते हैं।

OpenAI की कानाफूसी क्या है?

ओपनएआई का व्हिस्पर एक स्वचालित भाषण पहचान प्रणाली (संक्षिप्त रूप में एएसआर) है या इसे सीधे शब्दों में कहें तो बोली जाने वाली भाषा को पाठ में परिवर्तित करने का एक समाधान है।

instagram viewer

हालांकि, पुराने डिक्टेशन और ट्रांसक्रिप्शन सिस्टम के विपरीत, व्हिस्पर एक एआई समाधान है जो विभिन्न भाषाओं में 680,000 घंटे से अधिक भाषण पर प्रशिक्षित है। व्हिस्पर अद्वितीय सटीकता प्रदान करता है और काफी प्रभावशाली रूप से, यह न केवल बहुभाषी है, बल्कि यह भाषाओं के बीच अनुवाद भी कर सकता है।

इससे भी महत्वपूर्ण बात यह है कि यह मुफ़्त है और ओपन सोर्स के रूप में उपलब्ध है। इसके लिए धन्यवाद, कई डेवलपर्स ने इसके कोड को अपने स्वयं के प्रोजेक्ट में फोर्क किया है या व्हिस्पर डेस्कटॉप जैसे ऐप बनाए हैं जो इस पर भरोसा करते हैं।

यदि आप क्लंकी जीयूआई के बजाय व्हिस्पर के "वेनिला" संस्करण और टर्मिनल की बहुमुखी प्रतिभा को पसंद करते हैं, तो हमारे लेख को देखें Windows के लिए OpenAI's Whisper के साथ अपनी आवाज़ को टेक्स्ट में कैसे बदलें.

क्या व्हिस्पर और व्हिस्पर डेस्कटॉप एक ही हैं?

अपने आधिकारिक लगने वाले नाम के बावजूद, व्हिस्पर डेस्कटॉप व्हिस्पर के लिए एक तृतीय-पक्ष जीयूआई है, जो उन सभी के लिए बनाया गया है जो कमांड टाइप करने के बजाय बटन क्लिक करना पसंद करते हैं।

व्हिस्पर डेस्कटॉप एक स्टैंडअलोन समाधान है जो मौजूदा व्हिस्पर इंस्टालेशन पर निर्भर नहीं करता है। एक बोनस के रूप में, यह व्हिस्पर के वैकल्पिक, अनुकूलित संस्करण का उपयोग करता है, इसलिए इसे स्टैंडअलोन संस्करण से बेहतर प्रदर्शन करना चाहिए।

आप स्पेक्ट्रम के दूसरे छोर पर हैं, और टर्मिनल की तुलना में व्हिस्पर का उपयोग करने के लिए एक आसान तरीका खोजने के बजाय आप इसे अपने समाधानों में लागू करने के तरीकों की तलाश कर रहे हैं? आनन्द, के लिए ओपनएआई ने चैटजीपीटी और व्हिस्पर एपीआई तक पहुंच खोल दी है.

व्हिस्पर डेस्कटॉप डाउनलोड और इंस्टॉल करें

हालांकि व्हिस्पर डेस्कटॉप स्टैंडअलोन व्हिस्पर की तुलना में उपयोग करना आसान है, इसकी स्थापना विज़ार्ड में बार-बार नेक्स्ट क्लिक करने की तुलना में अधिक जटिल है।

  1. मिलने जाना व्हिस्पर डेस्कटॉप का आधिकारिक जीथब पृष्ठ. दाईं ओर देखें, और नीचे नवीनतम संस्करण पर क्लिक करें विज्ञप्ति.
  2. अंतर्गत संपत्ति, क्लिक करें व्हिस्परडेस्कटॉप.ज़िप और इसे अपने पीसी पर डाउनलोड करें।
  3. डाउनलोड किए गए संग्रह को एक फ़ोल्डर में निकालें और इसे देखने के लिए अपने फ़ाइल प्रबंधक का उपयोग करें। अंदर आपको व्हिस्पर डेस्कटॉप एप्लिकेशन मिलेगा। इसे चलाने के लिए इस पर डबल क्लिक करें।
  4. आपको व्हिस्पर भाषा मॉडल की भी आवश्यकता है जीसीएमएल बाइनरी प्रारूप। व्हिस्पर डेस्कटॉप आपको एक लिंक प्राप्त करने के लिए दो लिंक प्रदान करेगा। अपना स्वयं का मॉडल बनाने के लिए दूसरे लिंक को छोड़ दें क्योंकि यह अधिक जटिल प्रक्रिया है। पर क्लिक करें गले लगाने वाला चेहरा उस पृष्ठ को अपने डिफ़ॉल्ट ब्राउज़र में खोलने के लिए, जहाँ से आप उपयोग के लिए तैयार फ़ाइल डाउनलोड कर सकते हैं।
  5. इस लेख को लिखते समय हमने व्हिस्पर डेस्कटॉप के जिस संस्करण का उपयोग किया था, वह हगिंग फेस पर एक अप्रचलित रिपॉजिटरी का लिंक प्रदान करता है। यदि आप समान समस्या का सामना करते हैं, तो एक लिंक पर ध्यान दें नया स्थान. नए रिपॉजिटरी में जाने के लिए उस पर क्लिक करें।
  6. उस लिंक पर क्लिक करें जो आपको उपलब्ध तक ले जाएगा मॉडल.
  7. उस सूची में से किसी एक पर क्लिक करें ggml-medium.bin या ggml-medium.en.bin, इस पर निर्भर करता है कि आप व्हिस्पर में बहुभाषी या केवल-अंग्रेज़ी समर्थन चाहते हैं या नहीं।
  8. अंत में, आपको अपने गंतव्य तक पहुँच जाना चाहिए था। लाइन पर ध्यान दें कि यह फ़ाइल गिट एलएफएस के साथ संग्रहीत है और प्रदर्शित करने के लिए बहुत बड़ी है, लेकिन आप अभी भी इसे डाउनलोड कर सकते हैं। पर क्लिक करें डाउनलोड करना ठीक ऐसा करने के लिए।
  9. जब फ़ाइल का डाउनलोड होना पूरा हो जाए, तो डाउनलोड की गई भाषा मॉडल फ़ाइल को व्हिस्पर डेस्कटॉप के समान फ़ोल्डर में ले जाने के लिए अपने पसंदीदा फ़ाइल प्रबंधक (फ़ाइल एक्सप्लोरर करेगा) का उपयोग करें।

व्हिस्पर डेस्कटॉप के साथ ट्रांसक्रिप्शन

व्हिस्पर डेस्कटॉप के साथ ट्रांसक्राइब करना आसान है, लेकिन ऐप का उपयोग करने के लिए आपको अभी भी एक या दो क्लिक की आवश्यकता हो सकती है।

कानाफूसी डेस्कटॉप फिर से चलाएँ। क्या यह (अभी भी) आपके डाउनलोड किए गए भाषा मॉडल के लिए सही पथ को याद करता है? पर क्लिक करें तीन बिंदुओं वाला बटन फ़ील्ड के दाईं ओर और हगिंग फेस से आपके द्वारा डाउनलोड की गई फ़ाइल को मैन्युअल रूप से चुनें।

इस स्थान से, आप इसके आगे स्थित ड्रॉप-डाउन मेनू का भी उपयोग कर सकते हैं मॉडल कार्यान्वयन यह चुनने के लिए कि क्या आप अपने जीपीयू पर व्हिस्पर चलाना चाहते हैं (जीपीयू), CPU और GPU दोनों पर (हाइब्रिड), या केवल सीपीयू पर (संदर्भ).

विकसित बटन अधिक विकल्पों की ओर ले जाता है जो इस बात को प्रभावित करता है कि व्हिस्पर आपके हार्डवेयर पर कैसे चलेगा। हालाँकि, चूंकि बटन स्पष्ट रूप से बताता है कि वे उन्नत हैं, हम सुझाव देते हैं कि यदि आप समस्या निवारण कर रहे हैं या आप जानते हैं कि आप क्या कर रहे हैं तो आप उन्हें केवल ट्वीक करें। यहां गलत विकल्प मान सेट करने से प्रदर्शन पर जुर्माना लगाया जा सकता है या ऐप अनुपयोगी हो सकता है।

ऐप के मुख्य इंटरफ़ेस पर जाने के लिए ओके पर क्लिक करें।

यदि आपके पास पहले से ही अपनी आवाज की रिकॉर्डिंग है जिसे आप लिखित पाठ में बदलना चाहते हैं, पर क्लिक करें फ़ाइल का लिप्यंतरण करें और इसे चुनें। फिर भी, हम इस लेख के लाइव ट्रांसक्रिप्शन के लिए व्हिस्पर डेस्कटॉप का उपयोग करेंगे।

पेश किए गए विकल्प सीधे हैं। आप चुन सकते हैं भाषा व्हिस्पर का उपयोग होगा, यदि आप चाहें तो चुनें अनुवाद भाषाओं के बीच और ऐप को सक्षम करें डिबग कंसोल.

अधिकांश अंग्रेजी बोलने वाले उपयोगकर्ता उन विकल्पों को सुरक्षित रूप से छोड़ सकते हैं और केवल यह सुनिश्चित कर सकते हैं कि सही ऑडियो इनपुट का चयन पुल-डाउन मेनू से किया गया है कैप्चर डिवाइस.

सुनिश्चित करें पाठ फाइल में सहेजें और उस फ़ाइल में संलग्न करें Whisper Desktop को इसके कंटेंट को ओवरराइट किए बिना फ़ाइल में इसके आउटपुट को सेव करने के लिए सक्षम किया गया है। उपयोग तीन बिंदुओं वाला बटन उक्त पाठ फ़ाइल को परिभाषित करने के लिए फ़ाइल के पथ फ़ील्ड के दाईं ओर।

पर क्लिक करें कब्ज़ा करना अपने भाषण को टेक्स्ट में ट्रांसक्रिप्ट करना शुरू करने के लिए।

व्हिस्पर डेस्कटॉप आपको इसके लिए तीन संकेतक दिखाएगा जब यह ध्वनि गतिविधि का पता लगाता है, जब यह सक्रिय रूप से लिप्यंतरण कर रहा होता है, और जब प्रक्रिया ठप हो जाती है।

जब तक आप चाहें तब तक आप बात करना जारी रख सकते हैं, और आपको कभी-कभी पहले दो संकेतक चमकते हुए दिखाई देने चाहिए, जबकि ऐप आपकी आवाज़ को टेक्स्ट में बदल देता है। क्लिक रुकना जब हो जाए।

आपके द्वारा चुनी गई टेक्स्ट फ़ाइल आपके डिफ़ॉल्ट टेक्स्ट एडिटर में खुलनी चाहिए, जिसमें लिखित रूप में आपके द्वारा क्लिक किए जाने तक सब कुछ शामिल है रुकना.

हमें ध्यान देना चाहिए कि हमने यहां जो देखा उसके विपरीत आप भी कर सकते हैं: किसी भी टेक्स्ट को स्पीच में बदलें। इस तरह आप अपनी आंखों को स्क्रीन पर देखते हुए थकने के बजाय कुछ भी सुन सकते हैं जैसे कि वह पॉडकास्ट हो। उस पर अधिक जानकारी के लिए, हमारे लेख को देखें एमपी3 ऑडियो के रूप में टेक्स्ट-टू-स्पीच डाउनलोड करने के लिए कुछ बेहतरीन मुफ्त ऑनलाइन टूल.

व्हिस्पर डेस्कटॉप वॉयस-टाइपिंग टिप्स

हालांकि व्हिस्पर डेस्कटॉप एक लाइफसेवर हो सकता है, जो आपको टाइप करने की तुलना में बहुत तेजी से अपनी आवाज के साथ लिखने में सक्षम बनाता है, यह बिल्कुल सही नहीं है।

हमारे परीक्षण के दौरान, हमने पाया कि यह कभी-कभी हकला सकता है, कुछ शब्दों को छोड़ सकता है, जब तक आप लिप्यंतरण करने में विफल रहते हैं प्रक्रिया को मैन्युअल रूप से रोकें और पुनः आरंभ करें, या लूप में फंस जाएं और उसी वाक्यांश को फिर से ट्रांसक्रिप्ट करते रहें बार-बार।

हमारा मानना ​​है कि ये अस्थायी गड़बड़ियां हैं जिन्हें ठीक कर लिया जाएगा क्योंकि स्टैंडअलोन व्हिस्पर समान मुद्दों को प्रदर्शित नहीं करता है।

उन मामूली धक्कों के अलावा, व्हिस्पर डेस्कटॉप के साथ अपनी आवाज़ को टेक्स्ट में बदलना आसान होना चाहिए। फिर भी, हमारे परीक्षणों के दौरान, हमने पाया कि यह और भी बेहतर प्रदर्शन कर सकता है यदि...

  1. केवल दो या तीन शब्द बोलने और फिर रुकने के बजाय, यदि आप अधिक समय तक चलते हैं तो व्हिस्पर आपको बेहतर ढंग से समझ सकता है। कम से कम एक बार में पूरा वाक्य देने की कोशिश करें।
  2. इसी कारण से, ट्रांसक्रिप्शन प्रक्रिया को बार-बार शुरू करने और बंद करने से बचें.
  3. जब भी आपको लगे कि आपने गलती की है, तो उसे अनदेखा करें और आगे बढ़ते रहें। व्हिस्पर की वर्तमान स्थिति और हमारे उपलब्ध हार्डवेयर के साथ भाषा मॉडल को लोड और अनलोड करना प्रक्रिया का सबसे अधिक समय लेने वाला हिस्सा लगता है। इसलिए, बात करते रहना और बाद में अपनी गलतियों को संपादित करना तेज़ है।
  4. व्हिस्पर के स्टैंडअलोन संस्करण की तरह, आपके उपलब्ध हार्डवेयर के लिए इष्टतम भाषा मॉडल का उपयोग करना सबसे अच्छा है। आप तक उपयोग कर सकते हैं मध्यम मॉडल यदि आपके GPU में 8GB VRAM है। कम वीआरएएम के लिए, छोटे मॉडल के लिए जाएं। केवल थोड़ा अधिक सटीक चुनें, लेकिन बहुत अधिक मांग वाला भी बड़ा मॉडल यदि आप 16GB VRAM या अधिक वाले GPU का उपयोग करते हैं।
  5. याद रखें कि भाषा मॉडल जितना बड़ा होगा, प्रतिलेखन प्रक्रिया उतनी ही धीमी होगी। जरूरत से ज्यादा बड़े मॉडल के लिए मत जाओ। आप शायद पाएंगे कि व्हिस्पर डेस्कटॉप पहले से ही "आपको समझ सकता है" अधिकांश समय मध्यम या छोटे मॉडल के साथ, प्रति पैराग्राफ केवल एक या दो त्रुटियों के साथ।

क्या आप अभी भी टाइप कर रहे हैं? कानाफूसी के साथ अपनी आवाज का प्रयोग करें

सेटअप करने के लिए कुछ समय की आवश्यकता होने के बावजूद, जैसा कि आप देखेंगे जब आप इसे आजमाएंगे, व्हिस्पर डेस्कटॉप बहुत अधिक सटीकता और बेहतर गति के साथ अधिकांश विकल्पों की तुलना में बेहतर प्रदर्शन करता है।

जब आप अपनी आवाज से टाइप करने के लिए इसका उपयोग करना शुरू करते हैं, तो आपका कीबोर्ड लंबे समय से चले आ रहे प्राचीन काल के अवशेष की तरह लग सकता है।