वॉयस रिकग्निशन टेक्नोलॉजी का विकास का एक समृद्ध इतिहास है जो इसे आज तक ले गया है। यह आधुनिक जीवन के मूल में है, जो हमें केवल एक उपकरण से बात करके कार्य करने की क्षमता प्रदान करता है। तो, यह आश्चर्यजनक तकनीक वर्षों से कैसे विकसित हुई है? चलो एक नज़र मारें।
1952: ऑड्रे सिस्टम
आवाज पहचान में पहला कदम 1950 के दशक की शुरुआत में आया था। बेल लेबोरेटरीज ने 1952 में पहली मशीन विकसित की जो मानव आवाज को समझ सकती थी और इसका नाम ऑड्रे सिस्टम रखा गया। ऑड्रे नाम ऑटोमैटिक डिजिट रिकग्निशन वाक्यांश के संकुचन की तरह था। हालांकि यह एक प्रमुख नवाचार था, लेकिन इसकी कुछ प्रमुख सीमाएँ थीं।
सबसे प्रमुख रूप से, ऑड्रे केवल संख्यात्मक अंक 0-9 को पहचान सकता था, कोई शब्द नहीं। ऑड्रे फीडबैक देगा जब स्पीकर ने 10 में से 1 लाइटबल्ब को रोशन करके एक नंबर कहा, प्रत्येक एक अंक के अनुरूप।
जबकि यह 90% सटीकता के साथ संख्याओं को समझ सकता था, ऑड्रे एक विशिष्ट आवाज प्रकार तक ही सीमित था। यही कारण है कि डेवलपर्स में से एक एचके डेविस वास्तव में इसका इस्तेमाल करने वाला एकमात्र व्यक्ति था। जब कोई नंबर बोला जाता था, तो स्पीकर को अगला बोलने से पहले कम से कम 300 मिलीसेकंड इंतजार करना पड़ता था।
यह न केवल कार्यक्षमता में सीमित था, बल्कि उपयोगिता में भी सीमित था। एक ऐसी मशीन के लिए बहुत अधिक उपयोग नहीं था जो केवल संख्याओं को समझ सके। एक संभावित उपयोग टेलीफोन नंबर डायल करना था, लेकिन नंबरों को हाथ से डायल करना बहुत तेज़ और आसान था। हालांकि ऑड्रे का एक सुंदर अस्तित्व नहीं था, फिर भी यह मानव उपलब्धि में एक महान मील का पत्थर के रूप में खड़ा है।
सम्बंधित: माइक्रोसॉफ्ट वर्ड पर वॉयस-टाइपिंग का उपयोग कैसे करें
1962: आईबीएम का शूबॉक्स
ऑड्रे के एक दशक बाद, आईबीएम ने वॉयस रिकग्निशन सिस्टम विकसित करने में हाथ आजमाया। 1962 के विश्व मेले में, आईबीएम ने शोबॉक्स नामक एक आवाज पहचान प्रणाली को दिखाया। ऑड्रे की तरह, इसका मुख्य काम अंक 0-9 को समझना था, लेकिन यह छह शब्दों को भी समझ सकता था: प्लस, माइनस, फॉल्स, टोटल, सबटोटल और ऑफ।
शूबॉक्स एक गणित की मशीन थी जो साधारण अंकगणितीय प्रश्नों को हल कर सकती थी। प्रतिक्रिया के लिए, रोशनी के बजाय, Shoebox परिणामों को कागज पर प्रिंट करने में सक्षम था। इसने इसे कैलकुलेटर के रूप में उपयोगी बना दिया, हालांकि स्पीकर को अभी भी प्रत्येक संख्या/शब्द के बीच रुकने की आवश्यकता होगी।
1971: आईबीएम की स्वचालित कॉल पहचान
ऑड्रे और शूबॉक्स के बाद, दुनिया भर की अन्य प्रयोगशालाओं ने आवाज पहचानने की तकनीक विकसित की। हालाँकि, यह 1970 के दशक तक शुरू नहीं हुआ, जब 1971 में, IBM ने अपनी तरह का पहला आविष्कार बाजार में लाया। इसे स्वचालित कॉल पहचान प्रणाली कहा जाता था। यह पहला वॉयस रिकग्निशन सिस्टम था जिसका इस्तेमाल टेलीफोन सिस्टम पर किया गया था।
इंजीनियर कॉल करेंगे और उत्तरी कैरोलिना के रैले में एक कंप्यूटर से जुड़े रहेंगे। कॉलर तब अपनी शब्दावली में 5,000 शब्दों में से एक का उच्चारण करेगा और उत्तर के रूप में "बोली जाने वाली" प्रतिक्रिया प्राप्त करेगा।
सम्बंधित: मैक पर वॉयस डिक्टेशन का उपयोग कैसे करें
1976: हार्पी
1970 के दशक की शुरुआत में, अमेरिकी रक्षा विभाग ने आवाज की पहचान में रुचि ली। DARPA (डिफेंस एडवांस्ड रिसर्च प्रोजेक्ट्स एजेंसी) ने 1971 में स्पीच अंडरस्टैंडिंग रिसर्च (SUR) प्रोग्राम विकसित किया। इस कार्यक्रम ने आवाज पहचान के लिए अनुसंधान और विकास में सहायता के लिए कई कंपनियों और विश्वविद्यालयों को वित्त पोषण प्रदान किया।
1976 में, सुर की वजह से, कार्नेगी मेलन विश्वविद्यालय ने हार्पी सिस्टम विकसित किया। वॉयस रिकग्निशन टेक्नोलॉजी में यह एक बड़ी छलांग थी। उस बिंदु तक सिस्टम शब्दों और संख्याओं को समझने में सक्षम थे, लेकिन हार्पी इस मायने में अद्वितीय था कि वह पूरे वाक्यों को समझ सकता था।
इसमें लगभग 1,011 शब्दों की शब्दावली थी, जो एक प्रकाशन के अनुसार बी। लोवर और आर। रेड्डी, एक ट्रिलियन से अधिक विभिन्न संभावित वाक्यों के बराबर। प्रकाशन तब कहता है कि हार्पी ९३.७७% सटीकता के साथ शब्दों को समझ सकता है।
1980 का दशक आवाज पहचान तकनीक के लिए एक महत्वपूर्ण समय था, क्योंकि यह वह दशक है जहां आवाज मान्यता प्रौद्योगिकी, क्योंकि यह वह दशक था जब हमें हिडन मार्कोव विधि से परिचित कराया गया था (हम्म)। HMM के पीछे मुख्य प्रेरक शक्ति है संभावना.
जब भी कोई सिस्टम एक स्वर (भाषण का सबसे छोटा तत्व) दर्ज करता है, तो एक निश्चित संभावना होती है कि अगला क्या होगा। HMM इन संभावनाओं का उपयोग यह निर्धारित करने के लिए करता है कि कौन सा फ़ोनेम सबसे अधिक संभावना वाला होगा और सबसे अधिक संभावित शब्द बनाएगा। अधिकांश आवाज पहचान प्रणाली आज भी भाषण को समझने के लिए एचएमएम का उपयोग करती हैं।
1990 का दशक: आवाज की पहचान उपभोक्ता बाजार तक पहुँचती है
वॉयस रिकग्निशन टेक्नोलॉजी की अवधारणा के बाद से, यह उपभोक्ता बाजार में जगह खोजने की यात्रा पर है। 1980 के दशक में, आईबीएम ने एक प्रोटोटाइप कंप्यूटर का प्रदर्शन किया जो वाक्-से-पाठ श्रुतलेख कर सकता था। हालाँकि, 1990 के दशक की शुरुआत तक लोगों ने इस तरह के अनुप्रयोगों को अपने घरों में देखना शुरू नहीं किया था।
1990 में, ड्रैगन सिस्टम्स ने पहला स्पीच-टू-टेक्स्ट डिक्टेशन सॉफ्टवेयर पेश किया। इसे ड्रैगन डिक्टेट कहा जाता था, और इसे मूल रूप से विंडोज के लिए जारी किया गया था। ९,००० डॉलर का यह कार्यक्रम आवाज पहचान तकनीक को जन-जन तक पहुंचाने के लिए क्रांतिकारी था, लेकिन इसमें एक खामी थी। इस्तेमाल किया गया सॉफ्टवेयर असतत श्रुतलेख, जिसका अर्थ है कि प्रोग्राम को लेने के लिए उपयोगकर्ता को प्रत्येक शब्द के बीच रुकना होगा।
1996 में, IBM ने Medspeak के साथ फिर से उद्योग में योगदान दिया। यह एक भाषण-से-पाठ श्रुतलेख कार्यक्रम भी था, लेकिन ड्रैगन डिक्टेट के रूप में यह असतत संकेत से ग्रस्त नहीं था। इसके बजाय, यह कार्यक्रम निरंतर भाषण को निर्देशित कर सकता है, जिसने इसे और अधिक सम्मोहक उत्पाद बना दिया।
सम्बंधित: हेडफ़ोन के साथ Google सहायक का उपयोग कैसे करें
2010: सिरी नाम की एक लड़की
2000 के दशक के दौरान, आवाज पहचान तकनीक लोकप्रियता में विस्फोट हो गई। इसे पहले से कहीं अधिक सॉफ्टवेयर और हार्डवेयर में लागू किया गया था, और आवाज पहचान के विकास में एक महत्वपूर्ण कदम डिजिटल सहायक सिरी था। 2010 में, Siri नाम की एक कंपनी ने वर्चुअल असिस्टेंट को iOS ऐप के रूप में पेश किया।
उस समय, सिरी सॉफ्टवेयर का एक प्रभावशाली टुकड़ा था जो कि वक्ता जो कह रहा था उसे निर्देशित कर सकता था और एक शिक्षित और मजाकिया प्रतिक्रिया दे सकता था। यह कार्यक्रम इतना प्रभावशाली था कि Apple ने उसी वर्ष कंपनी का अधिग्रहण कर लिया और सिरी को थोड़ा सा सुधार दिया, इसे उस डिजिटल सहायक की ओर धकेल दिया जिसे हम आज जानते हैं।
यह ऐप्पल के माध्यम से था कि सिरी को अपनी प्रतिष्ठित आवाज (सुसान बेनेट द्वारा आवाज) और कई नई सुविधाएं मिलीं। यह उपयोगकर्ता है प्राकृतिक भाषा प्रसंस्करण सिस्टम के अधिकांश कार्यों को नियंत्रित करने के लिए।
2010 का दशक: द बिग 4 डिजिटल असिस्टेंट्स
जैसा कि यह खड़ा है, चार बड़े डिजिटल सहायक आवाज पहचान और अतिरिक्त सॉफ्टवेयर पर हावी हैं।
- महोदय मै Apple के लगभग सभी उत्पादों में मौजूद है: iPhones, iPods, iPads, और Mac कंप्यूटर का परिवार।
- गूगल असिस्टेंट बाजार में मौजूद अधिकांश 3 बिलियन से अधिक Android उपकरणों में मौजूद है। इसके अलावा, उपयोगकर्ता उपयोग कर सकते हैं कई Google सेवाओं में आदेश, Google होम की तरह।
- अमेज़न एलेक्सा जहां वह रहता है, उसके पास बहुत अधिक समर्पित मंच नहीं है, लेकिन यह अभी भी एक प्रमुख सहायक है। यह Android उपकरणों, Apple उपकरणों पर डाउनलोड और उपयोग करने के लिए उपलब्ध है। और यहां तक कि लेनोवो लैपटॉप का चयन करें
- बिक्सबी डिजिटल सहायक सूची में नवीनतम प्रविष्टि है। यह सैमसंग का घरेलू डिजिटल सहायक है, और यह कंपनी के फोन और टैबलेट के बीच मौजूद है।
एक बोलचाल का इतिहास
ऑड्रे के दिनों से आवाज की पहचान एक लंबा सफर तय कर चुकी है। यह कई क्षेत्रों में काफी लाभ कमा रहा है; उदाहरण के लिए, के अनुसार क्लियर ब्रिज मोबाइल, 2020 में महामारी के दौरान आवाज से चलने वाले चैटबॉट्स से चिकित्सा क्षेत्र को लाभ हुआ। केवल संख्याओं को समझने में सक्षम होने से लेकर पूर्ण वाक्यों के विभिन्न रूपों को समझने तक, आवाज की पहचान हमारे आधुनिक युग की सबसे उपयोगी तकनीकों में से एक साबित हो रही है।
हम हर समय आवाज की पहचान का उपयोग करते हैं, लेकिन यह कैसे काम करता है?
आगे पढ़िए
- प्रौद्योगिकी की व्याख्या
- महोदय मै
- गूगल असिस्टेंट
- एलेक्सा
- बिक्सबी
- मौखिक आदेश
आर्थर अमेरिका में रहने वाले एक टेक पत्रकार और संगीतकार हैं। वह लगभग एक दशक से उद्योग में हैं, उन्होंने एंड्रॉइड हेडलाइंस जैसे ऑनलाइन प्रकाशनों के लिए लिखा है। उसे Android और ChromeOS की गहरी जानकारी है। सूचनात्मक लेख लिखने के साथ-साथ वह तकनीकी समाचारों की रिपोर्टिंग में भी माहिर हैं।
हमारे न्यूज़लेटर की सदस्यता लें
तकनीकी युक्तियों, समीक्षाओं, निःशुल्क ई-पुस्तकों और अनन्य सौदों के लिए हमारे न्यूज़लेटर से जुड़ें!
सब्सक्राइब करने के लिए यहां क्लिक करें