विज्ञापन

हम अब अपने लगभग सभी गैजेट्स पर बात कर सकते हैं, लेकिन वास्तव में यह कैसे काम करता है? जब आप पूछते हैं कि "यह कौन सा गीत है?" या "मॉम कॉल" कहें, आधुनिक तकनीक का एक चमत्कार हो रहा है। और जब यह महसूस होता है कि यह अत्याधुनिक पर है, तो उपकरणों से बात करने का यह विचार दशकों पीछे चला जाता है - लगभग विज्ञान कथा में जेटपैक के रूप में!

आज, वॉयस-चालित कंप्यूटिंग के लिए ध्यान दिया गया थोक स्मार्टफोन पर है। Apple, Amazon, Microsoft और Google श्रृंखला में सबसे ऊपर हैं, हर एक इलेक्ट्रॉनिक्स से बात करने का अपना तरीका पेश करता है। आप जानते हैं कि वे कौन हैं: सिरी, एलेक्सा, कोरटाना, और नामहीन "ठीक है, Google"। जो एक बड़ा सवाल ...

एक उपकरण बोले गए शब्दों को कैसे लेता है और उन्हें कमांड में बदल देता है इसे समझ सकते हैं? संक्षेप में, यह उन पैटर्नों के आधार पर मिलान करने और भविष्यवाणियां करने के लिए नीचे आता है। विशेष रूप से, आवाज की पहचान एक जटिल कार्य है ध्वनिक मॉडलिंग तथा भाषा मॉडलिंग.

ध्वनिक मॉडलिंग: तरंग और फोन

तरंग

ध्वनिक मॉडलिंग भाषण की एक तरंग लेने और सांख्यिकीय मॉडल का उपयोग करके इसका विश्लेषण करने की प्रक्रिया है। इसके लिए सबसे आम तरीका है

instagram viewer
छिपे हुए मार्कोव मॉडलिंग, जिसका उपयोग क्या कहा जाता है उच्चारण मॉडलिंग फोन नामक घटक भागों में भाषण को तोड़ने के लिए (वास्तविक फोन उपकरणों के साथ भ्रमित होने की नहीं)। Microsoft कई वर्षों से इस क्षेत्र में अग्रणी शोधकर्ता है।

छिपे हुए मार्कोव मॉडलिंग: संभावना राज्यों

हिडन मार्कोव मॉडलिंग एक भविष्य कहनेवाला गणितीय मॉडल है जहां वर्तमान स्थिति को आउटपुट का विश्लेषण करके निर्धारित किया जाता है। विकिपीडिया में ए दो दोस्तों का उपयोग करके महान उदाहरण.

दो दोस्तों की कल्पना करें - स्थानीय दोस्त और दूरस्थ दोस्त - जो अलग-अलग शहरों में रहते हैं। स्थानीय मित्र यह पता लगाना चाहता है कि वह मौसम कैसा है जहां रिमोट मित्र रहता है, लेकिन रिमोट मित्र केवल उसी दिन के बारे में बात करना चाहता है: पैदल, दुकान या साफ। दिन के मौसम के आधार पर प्रत्येक गतिविधि की संभावना।

छिपे हुए मार्कोव मॉडलिंग

बहाना है कि यह केवल जानकारी उपलब्ध है। इसके साथ, लोकल फ्रेंड ट्रेंड खोज सकता है कि मौसम कैसे दिन-प्रतिदिन बदलता है, और इन रुझानों का उपयोग करते हुए, वह आज के मौसम के बारे में शिक्षित अनुमान लगाना शुरू कर सकते हैं कि कल उसकी दोस्त की गतिविधि के आधार पर क्या होगा। (आप ऊपर सिस्टम का एक आरेख देख सकते हैं।)

यदि आप अधिक जटिल उदाहरण चाहते हैं, तो देखें मतलब पर इसका उदाहरण है. वॉइस रिकग्निशन में, यह मॉडल अनिवार्य रूप से तरंग के प्रत्येक भाग की तुलना करता है जो पहले आता है और उसके बाद आता है, और तरंग के एक शब्दकोश के खिलाफ यह पता लगाने के लिए कि क्या कहा जा रहा है।

अनिवार्य रूप से, यदि आप एक "वें" ध्वनि बनाते हैं, तो यह उस ध्वनि की जांच करने जा रहा है जो सबसे संभावित ध्वनियों के खिलाफ है, जो आमतौर पर पहले और बाद में आती है। शायद इसका मतलब है कि "ई" ध्वनि, "एट" ध्वनि, और इसी तरह के खिलाफ जाँच। जब पैटर्न सही तरीके से मेल खाता है, तो यह आपके पूरे शब्द है। यह एक अति-सरलीकरण है, लेकिन आप देख सकते हैं Microsoft की पूरी व्याख्या यहाँ

भाषा मॉडलिंग: ध्वनि से अधिक

ध्वनिक मॉडलिंग आपके कंप्यूटर को आपको समझने में मदद करने में एक लंबा रास्ता तय करती है, लेकिन उच्चारण में होमोनिम्स और क्षेत्रीय विविधताओं के बारे में क्या? यही वह जगह है जहाँ भाषा मॉडलिंग खेल में आता है। Google ने इस क्षेत्र में मुख्य रूप से उपयोग के माध्यम से बहुत सारे अनुसंधान चलाए हैं एन-ग्राम मॉडलिंग.

जब Google आपके भाषण को समझने की कोशिश कर रहा होता है, तो वह अपने विशाल बैंक ऑफ़ वॉयस सर्च और YouTube ट्रांस्क्रिप्शंस से प्राप्त मॉडल के आधार पर ऐसा करता है। उन सभी उल्लसित गलत वीडियो कैप्शन ने वास्तव में Google को अपने शब्दकोश को विकसित करने में मदद की है। साथ ही, उन्होंने दिवंगत का उपयोग किया GOOG-411 लोग कैसे बोलते हैं, इसके बारे में जानकारी एकत्र करने के लिए।

shutterstock_70757203

इस भाषा संग्रह में सभी ने उच्चारण और बोलियों का एक विशाल सरणी बनाया, जो शब्दों के एक मजबूत शब्दकोश और वे कैसे ध्वनि के लिए बने। यह उन मैचों के लिए अनुमति देता है जिनकी कच्ची संभावनाओं के आधार पर ब्रूट बल मिलान की तुलना में बहुत कम त्रुटि दर है। आप एक संक्षिप्त पेपर पढ़ सकते हैं यहां उनकी विधियों का वर्णन करना.

जबकि Google इस क्षेत्र में अग्रणी है, वहाँ निरंतर स्थान सहित अन्य गणितीय मॉडल विकसित किए जा रहे हैं मॉडल और स्थिति भाषा मॉडल, जो कृत्रिम बुद्धिमत्ता में अनुसंधान से पैदा हुई उन्नत तकनीकें हैं। ये तरीके एक दूसरे को सुनते समय मनुष्यों के तर्क के प्रकार पर आधारित होते हैं। ये उनके पीछे तकनीक के मामले में बहुत अधिक उन्नत हैं, लेकिन इन मॉडलों को मैप करने के लिए आवश्यक गणित और प्रोग्रामिंग भी हैं।

एन-ग्राम मॉडलिंग: प्रोबेबिलिटी मीट मेमोरी

एन-ग्राम मॉडलिंग संभावनाओं के आधार पर काम करता है, लेकिन यह संभावनाओं की एक शाखा वृक्ष बनाने के लिए मौजूदा शब्दकोश का उपयोग करता है, जिसे बाद में दक्षता के लिए सुचारू किया जाता है। एक तरह से, इसका मतलब है कि एन-ग्राम मॉडलिंग, पूर्वोक्त छिपे हुए मार्कोव मॉडलिंग में बहुत अनिश्चितता के साथ दूर करता है।

जैसा कि ऊपर उल्लेख किया गया है, इस पद्धति की ताकत बड़े शब्दकोश होने से आती है शब्दों तथा प्रयोग, न कि केवल आदिम आवाज़. यह कार्यक्रम को "बीट" और "बीट" जैसे होमोफ़ोन के बीच अंतर बताने की क्षमता देता है। यह प्रासंगिक है, जिसका अर्थ है कि जब आप पिछली रात के अंकों के बारे में बात कर रहे हैं, तो प्रोग्राम हॉर्सचैट के बारे में शब्दों को नहीं खींच रहा है।

लेकिन ये मॉडल वास्तव में भाषा के लिए सबसे अच्छा नहीं है, मुख्यतः लंबे वाक्यांशों में शब्दों की संभावनाओं के साथ मुद्दों के कारण। जैसा कि आप एक वाक्य में अधिक शब्द जोड़ते हैं, यह मॉडल थोड़ा बंद हो जाता है क्योंकि आपके शुरुआती शब्दों में आपके संपूर्ण विचार के लिए आवश्यक सब कुछ लोड होने की संभावना नहीं है।

हालांकि, इसे लागू करना सरल और आसान है, यह Google जैसी कंपनी के लिए एक शानदार मेल है जो कम्प्यूटेशनल समस्याओं पर सर्वर को फेंकने में आनंद लेता है। आप एन-ग्राम मोदेलिेंग पर आगे पढ़ने कर सकते हैं वाशिंगटन विश्वविद्यालय, या आप एक देख सकते हैं कौरसेरा में व्याख्यान.

बादलों पर चिल्लाना: ऐप्स और डिवाइस

सिरी का उपयोग करने वाला कोई भी व्यक्ति धीमे नेटवर्क कनेक्शन की निराशा जानता है। ऐसा इसलिए है क्योंकि आपके आदेश सिरी को Apple द्वारा डिकोड किए जाने वाले नेटवर्क पर भेजे जाते हैं। विंडोज फोन के लिए कोरटाना को भी ठीक से काम करने के लिए नेटवर्क कनेक्शन की आवश्यकता होती है। इसके विपरीत, हालांकि, अमेज़ॅन इको बिना किसी इंटरनेट के केवल एक ब्लूटूथ स्पीकर है।

अंतर क्यों? क्योंकि सिरी और कोरटाना को आपके भाषण को डिकोड करने के लिए भारी शुल्क सर्वर की आवश्यकता होती है। क्या यह आपके फोन या टैबलेट पर किया जा सकता है? सुनिश्चित करें, लेकिन आप इस प्रक्रिया में अपने प्रदर्शन और बैटरी जीवन को मार नहीं सकते हैं। यह सिर्फ समर्पित मशीनों के लिए प्रसंस्करण को उतारने के लिए अधिक समझ में आता है।

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

इसे इस तरह समझें: आपकी आज्ञा कीचड़ में फंसी कार है। आप शायद इसे पर्याप्त समय और प्रयास के साथ अपने आप को बाहर धकेल सकते हैं, लेकिन इसमें आपको समय लगेगा और आपको थकावट होगी। इसके बजाय, आप सड़क के किनारे सहायता कहते हैं और वे कुछ ही मिनटों में आपकी कार को बाहर निकाल देते हैं। नकारात्मक पक्ष यह है कि आपको कॉल करना होगा और उनका इंतजार करना होगा, लेकिन यह अभी भी तेज और कम कर देने वाला है।

अधिक शक्तिशाली हार्डवेयर के कारण Nuance जैसे डेस्कटॉप मॉडल स्थानीय संसाधनों का उपयोग करते हैं। आखिरकार, स्टीव जॉब्स के शब्दों में, आपका डेस्कटॉप एक ट्रक है. (जो इसे थोड़ा मूर्खतापूर्ण बनाता है जो ओएस एक्स का उपयोग कर रहा है इसके प्रसंस्करण के लिए सर्वर।) इसलिए जब आपको भाषा और आवाज को संसाधित करने की आवश्यकता होती है, तो यह पहले से ही अच्छी तरह से सुसज्जित होता है ताकि इसे अपने दम पर संभाल सकें।

दूसरी ओर, एंड्रॉइड डेवलपर्स को अपने ऐप में ऑफ़लाइन भाषण पहचान शामिल करने की अनुमति देता है। Google तकनीक से आगे निकलना पसंद करता है, और आप शर्त लगा सकते हैं कि अन्य प्लेटफ़ॉर्म इस क्षमता को प्राप्त करेंगे क्योंकि उनका हार्डवेयर अधिक शक्तिशाली होता है। जब कोई खराब कवरेज या खराब रिसेप्शन अपने डिवाइस को लॉबोटोमाइज करता है तो कोई भी इसे पसंद नहीं करता है।

वॉयस कमांड का उपयोग करना शुरू करें

अब जब आप मूलभूत अवधारणाओं को जानते हैं, तो आपको अपने विभिन्न उपकरणों के साथ खेलना चाहिए। नई कोशिश करें Google डॉक्स में वॉइस टाइपिंग कैसे आवाज टाइपिंग Google डॉक्स की नई सबसे अच्छी विशेषता हैहाल के वर्षों में आवाज की पहचान ने छलांग और सीमा में सुधार किया है। इस हफ्ते की शुरुआत में, Google ने आखिरकार Google डॉक्स में वॉइस टाइपिंग शुरू की। लेकिन क्या यह थोड़ा अच्छा है? चलो पता करते हैं! अधिक पढ़ें . जैसे कि वेब ऑफिस सुइट पहले से ही पर्याप्त शक्तिशाली नहीं था, आवाज नियंत्रण आपको पूरी तरह से अपने दस्तावेजों को निर्देशित और प्रारूपित करने की अनुमति देता है। यह उन शक्तिशाली तकनीक पर विस्तार करता है जो वे पहले से ही क्रोम और एंड्रॉइड के लिए डिज़ाइन किए गए थे।

अन्य विचारों में आपकी स्थापना शामिल है वॉइस कमांड का उपयोग करने के लिए मैक अपने मैक पर भाषण कमांड का उपयोग कैसे करें अधिक पढ़ें और अपनी स्थापना स्वचालित चेकआउट के साथ अमेज़न इको कैसे अमेज़न इको आपके घर को स्मार्ट होम बना सकता हैस्मार्ट होम तकनीक अभी भी अपने शुरुआती दिनों में है, लेकिन "इको" नामक अमेज़ॅन का एक नया उत्पाद इसे मुख्यधारा में लाने में मदद कर सकता है। अधिक पढ़ें . भविष्य में जियो और अपने गैजेट्स से बात करो - भले ही आप सिर्फ अधिक कागज़ के तौलिए का आदेश दे रहे हों। यदि आप एक स्मार्टफोन के आदी हैं, तो हमें इसके लिए ट्यूटोरियल भी मिले हैं महोदय मै 8 चीजें जो संभवतः आपको पता नहीं चलेंगी कि सिरी क्या कर सकती हैसिरी iPhone की परिभाषित विशेषताओं में से एक बन गया है, लेकिन कई लोगों के लिए, यह हमेशा सबसे उपयोगी नहीं है। जबकि इस में से कुछ आवाज मान्यता की सीमाओं के कारण है, उपयोग की विषमता ... अधिक पढ़ें , Cortana विंडोज 10 में आप कॉर्टाना के साथ 6 सबसे अच्छी चीजें नियंत्रित कर सकते हैंCortana आपको विंडोज 10 पर हाथों से मुक्त होने में मदद कर सकता है। आप उसे अपनी फ़ाइलों और वेब को खोजने, गणना करने या मौसम के पूर्वानुमान को खींचने दे सकते हैं। यहाँ हम उसके कुछ कौशल को कवर करते हैं। अधिक पढ़ें , तथा एंड्रॉयड ठीक है, Google: 20 उपयोगी चीजें जो आप अपने एंड्रॉइड फोन से कह सकते हैंGoogle सहायक आपको अपने फ़ोन पर बहुत कुछ करने में मदद कर सकता है। यहाँ मूल लेकिन उपयोगी ठीक Google आदेशों का एक पूरा गुच्छा दिया गया है। अधिक पढ़ें .

वॉइस कंट्रोल का आपका पसंदीदा उपयोग क्या है? हमें टिप्पणियों में बताएं।

छवि क्रेडिट: टी-फ्लेक्स शटरटरॉक के माध्यम से, टेरेंसहोल्स विकिमीडिया फाउंडेशन के माध्यम से, एरिज़ोना राज्य, Shienstock के माध्यम से Cienpies डिजाइन

माइकल ने मैक का उपयोग नहीं किया जब वे बर्बाद हो गए थे, लेकिन वह एप्सस्क्रिप्ट में कोड कर सकते हैं। उनके पास कंप्यूटर विज्ञान और अंग्रेजी में डिग्री है; वह कुछ समय के लिए मैक, आईओएस और वीडियो गेम के बारे में लिख रहा है; और वह एक दशक से अधिक समय तक आईटी बंदर रहा है, जो स्क्रिप्टिंग और वर्चुअलाइजेशन में विशेषज्ञता रखता है।