वाक्यांश का पता लगाना प्रक्रिया का सिर्फ एक हिस्सा है।
कमरे में संगीत बदलने या लाइट बंद करने के लिए पूरे कमरे से "ओके गूगल" चिल्लाना निश्चित रूप से महसूस होता है अविश्वसनीय, लेकिन यह प्रतीत होने वाली सरल प्रक्रिया इसके पीछे काम करने वाली प्रौद्योगिकियों के एक जटिल वेब द्वारा संचालित है दृश्य.
बाज़ार में लगभग हर प्रमुख आभासी सहायक के पास एक कॉलिंग वाक्यांश होता है जिसका उपयोग आप सहायक को जगाने और बातचीत करने के लिए करते हैं। लेकिन वॉयस असिस्टेंट को कैसे पता चलता है कि आप उनसे कब बात कर रहे हैं?
वाक्यांश पहचान कैसे काम करती है?
जैसा कि ऊपर उल्लेख किया गया है, प्रत्येक वॉयस असिस्टेंट में एक "ट्रिगर वाक्यांश" या वेक शब्द होता है जिसका उपयोग आप असिस्टेंट को जगाने और आगे के आदेश देने के लिए करते हैं। छोटी-छोटी बारीकियों को छोड़कर, इस वाक्यांश का पता लगाने की प्रक्रिया हर सहायक के साथ कमोबेश एक जैसी है। जैसा कि कहा गया है, इन बारीकियों का मतलब वेक कमांड को लापरवाही से कहने और इसे कई बार चिल्लाने के बीच का अंतर हो सकता है कभी-कभी केवल सहायक को सोते रहने के लिए, कुछ ऐसा जो कभी-कभी वास्तव में कष्टप्रद हो सकता है, खासकर यदि आप सो रहे हों
शांत होने में सहायता के लिए अपने ध्वनि सहायक का उपयोग करना.सामान्य तौर पर, अधिकांश "स्मार्ट" स्पीकर में एक छोटा सर्किट होता है जिसका एकमात्र काम वेक कमांड का पता लगाना और फिर बाकी हार्डवेयर को क्रियान्वित करना है। अधिकांश प्रसंस्करण क्लाउड में किया जाता है, लेकिन स्पष्ट गोपनीयता कारणों से वाक्यांश का पता लगाना डिवाइस पर होता है। फ़ोन पर वाक्यांश पहचान कमोबेश इसी तरह काम करती है।
बारीकियां अधिकतर गोपनीय होती हैं, लेकिन ये डिटेक्शन सिस्टम आपकी आवाज का पता लगाने और एक कुंजी बनाने के लिए एआई मॉडल को प्रशिक्षित करने के लिए मशीन लर्निंग और डीप न्यूरल नेटवर्क (डीएनएन) का उपयोग करते हैं। इस कुंजी का उपयोग यह सत्यापित करने के लिए किया जाता है कि आपने कोई विशेष वाक्यांश कब कहा है, और बाकी सब कुछ आगे की प्रक्रिया के लिए क्लाउड पर भेज दिया जाता है।
गूगल असिस्टेंट
जो फ़ोन "ओके गूगल" डिटेक्शन का समर्थन करते हैं, वे आम तौर पर एक कीवर्ड स्पॉटिंग (केडब्ल्यूएस) सिस्टम के साथ आते हैं जो वाक्यांश का पता लगाता है और फिर आपकी बाकी क्वेरी को क्लाउड पर पैच कर देता है। चूँकि मोबाइल उपकरणों में सीमित कम्प्यूटेशनल शक्ति के साथ-साथ बैटरी जीवन की कमी होती है, इसलिए ये सिस्टम आमतौर पर उतने अच्छे नहीं होते जितने आपको Google Nest स्पीकर पर मिलते हैं।
यह ऑन-डिवाइस KWS सिस्टम डिवाइस के माइक्रोफ़ोन से लगातार ऑडियो उठाता है और ट्रिगर वाक्यांश का पता चलने पर सर्वर से कनेक्शन शुरू करता है। Google अपने KWS सिस्टम की समग्र सटीकता में सुधार के लिए सर्वर-साइड प्रासंगिक स्वचालित वाक् पहचान (एएसआर) का भी उपयोग करता है। आप इसके बारे में और अधिक पढ़ सकते हैं Google का शोध पत्र [पीडीएफ]।
महोदय मै
"अरे सिरी" पहचान के संबंध में सिरी Google Assistant की तरह ही काम करता है। ऐप्पल इस बारे में आश्चर्यजनक रूप से खुला है कि सिस्टम कैसे काम करता है, जिसमें एक "बहुत छोटा" भाषण पहचानकर्ता शामिल है जो पृष्ठभूमि में चलता है और केवल उन दो शब्दों को सुनता है। यह डिटेक्टर प्रत्येक उदाहरण पर रिकॉर्ड की गई आपकी आवाज के ध्वनिक पैटर्न को भाषण ध्वनियों पर संभाव्यता वितरण में परिवर्तित करने के लिए डीएनएन का उपयोग करता है, जो अनिवार्य रूप से एक आत्मविश्वास स्कोर उत्पन्न करता है।
आपका iPhone या Apple वॉच आपकी आवाज़ को 16,000 प्रति सेकंड की दर से तरंगरूप नमूनों की एक धारा में बदलकर ऐसा करता है। फिर इसे लगभग 0.01 सेकंड के ध्वनि स्पेक्ट्रम को कवर करने वाले फ़्रेमों के अनुक्रम में काट दिया जाता है। फिर, इनमें से कुल 20 फ़्रेम को डिटेक्शन मॉडल में फीड किया जाता है, जो इन पैटर्न को एक संभावना में बदल देता है।
यदि सिस्टम पर्याप्त विश्वास के साथ निर्धारित करता है कि आपने "अरे सिरी" कहा है, तो सिरी जाग जाता है और बाकी भेज देता है क्लाउड पर क्वेरी का, जहां आगे का विश्लेषण होता है और आपके द्वारा अनुरोधित कोई भी कार्रवाई प्राप्त होती है प्रदर्शन किया।
बेशक, मेमोरी और बैटरी दक्षता सुनिश्चित करने के लिए अतिरिक्त उपाय जोड़े गए हैं। आपके iPhone के ऑलवेज ऑन प्रोसेसर (AOP) के पास इसी कारण से डिवाइस के माइक्रोफ़ोन (iPhone 6S और बाद के संस्करण पर) तक पहुंच है, और इसकी प्रोसेसिंग पावर का एक छोटा सा हिस्सा DNN चलाने के लिए आरक्षित है। Apple अपनी मशीन लर्निंग वेबसाइट पर पूरे सिस्टम का गहराई से विश्लेषण करता है, मशीन लर्निंग.एप्पल.
एलेक्सा
गूगल असिस्टेंट और सिरी की तरह, एलेक्सा भी अपनी अधिकांश प्रोसेसिंग पावर आपके द्वारा खरीदे जा सकने वाले किसी भी इको स्पीकर पर नहीं रखती है। इसके बजाय, स्पीकर अमेज़ॅन द्वारा स्वचालित वाक् पहचान (एएसआर) का उपयोग करते हैं जो अनिवार्य रूप से बोले गए शब्दों को पाठ में परिवर्तित करता है, जिससे अंतर्निहित प्रणाली को उनकी व्याख्या करने और तदनुसार कार्य करने की अनुमति मिलती है।
एएसआर एलेक्सा कैसे काम करता है इसका मूल आधार बनाता है। एक बार फिर, एक ऑनबोर्ड सिस्टम है जो जागृत शब्दों को सुनता है, इस मामले में, "एलेक्सा," "अमेज़ॅन," "इको," या "कंप्यूटर," और शेष सिस्टम को ट्रिगर करता है जब उपयोगकर्ता द्वारा पूर्व निर्धारित वेक शब्द होता है पता चला. आप यह भी "हे डिज़्नी" का उपयोग करके अपने एलेक्सा डिवाइस को जगाएं अगर आप चाहते हैं।
Google Assistant की तरह, आप अपनी आवाज़ को बेहतर ढंग से पहचानने के लिए एलेक्सा के अंतर्निहित AI मॉडल को प्रशिक्षित कर सकते हैं। इस प्रक्रिया में एक बेसलाइन "कुंजी" बनाना शामिल है जिससे बोले गए वेक शब्द की तुलना की जाती है, और जब कोई मिलान मिलता है, तो डिवाइस तदनुसार प्रतिक्रिया करता है।
क्या वॉइस असिस्टेंट हमेशा सुनते रहते हैं?
जैसा कि आप शायद पहले से ही अनुमान लगा सकते हैं, हाँ, वे हैं। अन्यथा वे जागृत शब्दों का पता लगाने में सक्षम होने का कोई तरीका नहीं है। हालाँकि, अभी आपको गोपनीयता संबंधी चिंताओं के कारण अपने सभी स्मार्ट स्पीकर को फेंकने की आवश्यकता नहीं है।
उपयोगकर्ताओं द्वारा कही गई हर बात को सुनना, उसे दूरस्थ सर्वर पर वापस भेजना और उसका विश्लेषण करना (या संग्रहीत करना)। इसके लिए विशाल हार्डवेयर और वित्तीय संसाधनों की इस हद तक आवश्यकता होती है कि इसका व्यावहारिक रूप से कोई मतलब नहीं रह जाता है परिप्रेक्ष्य। इसमें उन व्यापक गोपनीयता चिंताओं को भी जोड़ लें जिनसे Google, Apple और Amazon जैसी कंपनियां पहले से ही निपट रही हैं, और इस विचार का कोई मतलब नहीं है।
यह वेक वर्ड डिटेक्शन सुविधाओं के साथ फोन के प्रदर्शन और बैटरी जीवन पर भी व्यापक प्रभाव डालता है, विशेष रूप से Google Pixels और iPhones पर। यदि आपका फ़ोन लगातार आप जो कह रहे हैं उसे सुनता है और उस ऑडियो को रिमोट सर्वर पर वापस भेजता है, तो यह आपकी बैटरी को ख़त्म कर देगा और डिवाइस के प्रदर्शन को प्रभावित करेगा।
सबसे कुशल वाक्यांश पहचान किसके पास है और क्यों?
वस्तुनिष्ठ रूप से तुलना करना आसान नहीं है कि किस आभासी सहायक के पास वस्तुनिष्ठ रूप से सबसे अच्छा वाक्यांश पहचान है क्योंकि वे सभी एक ही समग्र अवधारणा के थोड़े अलग कार्यान्वयन का उपयोग करते हैं। हालाँकि, सिरी और एलेक्सा की तुलना में हेड स्टार्ट गूगल असिस्टेंट के कारण Google के पास अधिक सुसंगत वाक्यांश पहचान है।
चैटजीपीटी और बिंग चैट जैसे बड़े भाषा मॉडल (एलएलएम) का उपयोग करने वाले ऐप्स के मुख्यधारा बनने के बावजूद, Google Assistant ने सबसे अधिक में से एक के रूप में अपनी स्थिति बनाए रखी है। लोकप्रिय वर्चुअल असिस्टेंट सिर्फ इसलिए कि यह हर एंड्रॉइड डिवाइस पर एक टैप दूर है, स्मार्ट टीवी से लेकर कार स्टीरियो सिस्टम और निश्चित रूप से स्मार्टफोन तक।
सिरी और एलेक्सा को उस विभाग में कुछ काम करना है, लेकिन जहां तक वाक्यांश का पता लगाने का सवाल है, वे इतने दूर नहीं हैं। फिर भी, आपके पास अपने iPhone पर Siri की तुलना में अपने Pixel पर Google Assistant को पूरे कमरे में जगाने का बेहतर मौका होगा, हालाँकि आप ऐसा कर सकते हैं सुपर सिरी मोड के साथ सिरी की क्षमताओं को बढ़ावा दें. चूंकि एलेक्सा का उपयोग ज्यादातर अमेज़ॅन के इको लाइन के स्पीकर पर किया जाता है, इसलिए यहां इसका थोड़ा फायदा है, यह देखते हुए कि ये स्पीकर उपयोगकर्ता की आवाज़ को पकड़ने में सक्षम होने के लिए डिज़ाइन किए गए हैं।
एआई जितना डरावना है उतना ही सुविधाजनक भी
केवल अपनी आवाज़ से अपने AI सहायक को बुलाना काफी उपयोगी हो सकता है। एक ऐसी सुविधा के लिए जो हमारे जीवन में सहजता से एकीकृत हो जाती है, पर्दे के पीछे बहुत कुछ चल रहा होता है जिसके बारे में हममें से ज्यादातर लोग अक्सर नहीं सोचते हैं।
जैसा कि कहा गया है, यह सुविधा आपके डिवाइस को हमेशा यह सुनने की बेचैनी भी देती है कि आप क्या कह रहे हैं। अब तक, ऑन-डिवाइस स्पीच रिकॉग्निशनर्स और वेक वर्ड्स आपके वर्चुअल असिस्टेंट जो सुनते हैं और जो आप कहते हैं, के बीच खड़े होते हैं।