जब कोई व्यक्ति किसी दृश्य या छवि को देखता है, तो वे इसे समझते हैं - इसमें कौन सी वस्तुएं हैं और यदि कार्रवाई हो रही है तो क्या हो रहा है। दूसरी ओर, एक कंप्यूटर केवल डिजिटल डेटा को संसाधित करता है जो प्रत्येक पिक्सेल के रंग मान का वर्णन करता है। एक इंसान के लिए, बरबाद टेबल पर पिज़्ज़ा को पहचानना आसान नहीं है। लेकिन कुछ समय पहले तक, कंप्यूटर समान कार्य करने में असमर्थ होंगे।
कंप्यूटर विज़न, या सीवी, एक कंप्यूटर को दृश्य इनपुट से महत्वपूर्ण जानकारी लेने और उस जानकारी के आधार पर सटीक भविष्यवाणियां और सिफारिशें करने में सक्षम बनाता है।
कंप्यूटर विजन कैसे काम करता है?
कंप्यूटर विज़न से पहले, एक प्रोग्राम बनाने के लिए जो एक विशेष छवि को पहचानता है, एक व्यक्ति को घंटों मैनुअल लेग वर्क करना होगा। सबसे पहले, समान छवियों के डेटाबेस को एकत्रित करना होगा।
फिर, इन छवियों को प्रासंगिक डेटा के साथ मैन्युअल रूप से विश्लेषण, मापा और एनोटेट करना होगा कि शोधकर्ता ने सोचा कि प्रश्न में वस्तु की पहचान कर सकता है (जैसे रंग, माप, और आकार)। तभी भविष्यवाणी करने के लिए सॉफ्टवेयर का इस्तेमाल किया जा सकता था।
दूसरी ओर, कंप्यूटर विज़न एक मशीन लर्निंग दृष्टिकोण का उपयोग करके इस पूरी प्रक्रिया को स्वचालित करता है जिसे डीप लर्निंग कहा जाता है।
डीप लर्निंग एक बहुस्तरीय तंत्रिका नेटवर्क का उपयोग करता है सैकड़ों संभावित परतों के साथ। छवियों के मामले में, यह आमतौर पर एक दृढ़ तंत्रिका नेटवर्क (सीएनएन) है।गहन शिक्षण और तंत्रिका नेटवर्क कैसे काम करते हैं, इसके बारे में विस्तार से बताते हुए इस लेख के दायरे से बहुत दूर है। मूल रूप से, बड़ी मात्रा में डेटा को तंत्रिका नेटवर्क में फीड किया जाता है। तंत्रिका नेटवर्क डेटा का बार-बार विश्लेषण करता है जब तक कि वह इसके बारे में सटीक भविष्यवाणी नहीं कर सकता।
कंप्यूटर विज़न कार्य के लिए उपयोग किए जाने वाले सीएनएन के मामले में, तंत्रिका नेटवर्क कई चरणों में डेटा लेता है। सबसे पहले, यह छवि को कई टुकड़ों (व्यक्तिगत पिक्सेल या पिक्सेल के समूह जिन्हें पहले से टैग किया गया है) में ध्वस्त कर देता है।
फिर, यह भविष्यवाणी करता है कि छवि के विभिन्न टुकड़ों में क्या है (जैसे कठोर किनारों या विशिष्ट वस्तुएं)। यह इन भविष्यवाणियों की सटीकता की बार-बार जांच करता है और एल्गोरिथम के कुछ हिस्सों को तब तक थोड़ा बदल देता है जब तक कि यह बहुत सटीक न हो जाए।
कंप्यूटर अब इतने शक्तिशाली हो गए हैं कि वे मानव मस्तिष्क की तुलना में बहुत तेजी से एक छवि का विश्लेषण कर सकते हैं, खासकर जब उन्होंने कुछ पैटर्न को पहचानना सीख लिया हो। इस तरह, यह देखना आसान है कि कैसे एक गहन शिक्षण एल्गोरिथ्म मानव क्षमताओं को पछाड़ सकता है।
कंप्यूटर विजन के प्रकार क्या हैं?
कंप्यूटर विज़न में छवियों का विश्लेषण और समझ और छवियों के बारे में प्रासंगिक भविष्यवाणियों या निर्णयों का आउटपुट शामिल है। ऐसे कई कार्य हैं जिनका उपयोग कंप्यूटर विज़न इन लक्ष्यों को प्राप्त करने के लिए करेगा। इनमें से कुछ में शामिल हैं:
- छवि वर्गीकरण: छवि का प्रकार पहचाना जाता है। उदाहरण के लिए, चाहे वह किसी व्यक्ति का चेहरा, परिदृश्य या वस्तु हो। इस तरह के कार्य का उपयोग छवियों को जल्दी से पहचानने और वर्गीकृत करने के लिए किया जा सकता है। इसका एक उपयोग सोशल मीडिया पर अनुपयुक्त सामग्री को स्वचालित रूप से पहचानने और अवरुद्ध करने में है।
- वस्तु मान्यता: छवि वर्गीकरण के समान, वस्तु पहचान एक दृश्य के भीतर एक विशेष वस्तु की पहचान कर सकती है - जैसे कि एक बरबाद टेबल पर पिज्जा।
- किनारे का पता लगाना: कंप्यूटर विज़न का एक सामान्य उपयोग, और आमतौर पर ऑब्जेक्ट डिटेक्शन में पहला कदम, एक छवि में कठोर किनारों की पहचान करना है।
- वस्तु पहचान: यह किसी वस्तु या छवि के व्यक्तिगत उदाहरणों की पहचान है, जैसे किसी विशेष व्यक्ति, उंगलियों के निशान या वाहन की पहचान करना।
- वस्तु का पता लगाना: डिटेक्शन एक छवि के भीतर एक विशेष लक्षण की पहचान है, जैसे एक्स-रे में फ्रैक्चर वाली हड्डी।
- वस्तु विभाजन: यह इस बात की पहचान है कि छवि में कौन से पिक्सेल विचाराधीन वस्तु के हैं।
- ऑब्जेक्ट ट्रैकिंग: वीडियो अनुक्रम में, एक बार किसी वस्तु की पहचान हो जाने के बाद, उसे पूरे वीडियो में आसानी से ट्रैक किया जा सकता है।
- छवि बहाली: छवि में वस्तु बनाम पृष्ठभूमि कहां है, इसकी सटीक पहचान करके धुंधलापन, शोर और अन्य छवि कलाकृतियों को हटाया जा सकता है।
कंप्यूटर विजन के उदाहरण
आर्टिफिशियल इंटेलिजेंस है पहले से ही कई उद्योगों में उपयोग किया जाता है एक चौंका देने वाला प्रभाव के साथ, जो कंप्यूटर दृष्टि के लिए सही है। यहां पहले से ही उपयोग किए जा रहे CV के कुछ उदाहरण दिए गए हैं।
चेहरे की पहचान
चेहरे की पहचान उन मुख्य तरीकों में से एक है जो आज कंप्यूटर विज़न का उपयोग करते हैं। जब ज्ञात चेहरों के डेटाबेस से तुलना की जाती है, तो कंप्यूटर विज़न एल्गोरिदम बहुत सटीक रूप से व्यक्तिगत लोगों की पहचान कर सकते हैं।
- सोशल मीडिया छवियों का विश्लेषण करता है और स्वचालित रूप से उपयोगकर्ताओं को टैग करता है कि उसके पास छवियों का एक अच्छा चयन है।
- लैपटॉप, फोन और सुरक्षा उपकरण लोगों को एक्सेस की अनुमति देने के लिए पहचान सकते हैं।
- संदिग्धों की पहचान करने के लिए कानून प्रवर्तन सीसीटीवी सिस्टम में चेहरे की पहचान का उपयोग करता है।
दवा
विशेषज्ञों की तुलना में तेजी से और अधिक सटीक निदान प्रदान करने के लिए वर्तमान में स्वास्थ्य देखभाल में कंप्यूटर दृष्टि का उपयोग किया जाता है। कई अनुप्रयोगों में विशेष स्थितियों के लिए एक्स-रे, सीटी, या एमआरआई छवियों का विश्लेषण करना शामिल है, जिसमें तंत्रिका संबंधी बीमारियां, ट्यूमर और टूटी या खंडित हड्डियां शामिल हैं।
सेल्फ ड्राइविंग कारें
स्वायत्त वाहनों को अपने परिवेश को समझने की जरूरत है सुरक्षित ड्राइव करने के लिए। इसका अर्थ है सड़कों, गलियों, यातायात संकेतों, अन्य वाहनों, पैदल चलने वालों, और बहुत कुछ को पहचानना। ये सभी कार्य टकराव से बचने और सुरक्षित रूप से ड्राइव करने के लिए वास्तविक समय में कंप्यूटर विज़न सिस्टम का उपयोग करते हैं।
कंप्यूटर विजन चुनौतीपूर्ण है
कंप्यूटर विज़न के वर्तमान अनुप्रयोग पहले से ही विभिन्न उद्योगों में हमारे काम करने के तरीके को बदलने लगे हैं। दोषपूर्ण या टूटे हुए उपकरणों का पता लगाने से लेकर कैंसर का सटीक निदान करने तक, कंप्यूटर विज़न में सिस्टम को बेहतर बनाने और लोगों की जान बचाने की क्षमता है।
लेकिन, यह इसकी चुनौतियों के बिना नहीं है। कंप्यूटर दृष्टि अभी भी मानव दृष्टि से बहुत दूर है। हमारे पास हजारों वर्षों का विकास है जो हमें वास्तविक समय में हमारे आसपास होने वाली लगभग हर चीज को पहचानने और समझने में सक्षम बनाता है। लेकिन, हमें नहीं पता कि मानव मस्तिष्क इन कार्यों को कैसे करता है।
डीप लर्निंग सही दिशा में एक बड़ा कदम है, लेकिन इसके लिए अभी भी एक अद्भुत मात्रा में काम करने की आवश्यकता है एक ऐसी प्रणाली बनाने के लिए जो एक ऐसा कार्य कर सके जिसे मनुष्य बहुत आसानी से कर सके, जैसे कार की पहचान करना सड़क। ऐसा इसलिए है क्योंकि कंप्यूटर विवश कार्यों को बहुत प्रभावी ढंग से करते हैं। एक ऐसा कंप्यूटर विकसित करना जो दृश्य दुनिया की कुल जटिलता को समझ सके, एक पूरी तरह से अलग बॉल गेम है।
जैसा कि एआई अनुप्रयोगों और मानव जीव विज्ञान दोनों में अधिक शोध होता है, हमें निकट भविष्य में कंप्यूटर दृष्टि के संभावित उपयोगों का एक विस्फोट देखने की संभावना है।
मशीन लर्निंग एल्गोरिदम को जीवन को आसान बनाने और सिस्टम को बेहतर बनाने के लिए डिज़ाइन किया गया है, लेकिन वे खराब परिणामों के साथ खराब हो सकते हैं।
आगे पढ़िए
- प्रौद्योगिकी की व्याख्या
- प्रोग्रामिंग
- कृत्रिम होशियारी
- तंत्रिका जाल
जेक हार्फील्ड पर्थ, ऑस्ट्रेलिया में स्थित एक स्वतंत्र लेखक हैं। जब वह नहीं लिख रहा होता है, तो वह आमतौर पर झाड़ियों में स्थानीय वन्यजीवों की तस्वीरें खींचता रहता है। आप उनसे www.jakeharfield.com पर मिल सकते हैं
हमारे न्यूज़लेटर की सदस्यता
तकनीकी युक्तियों, समीक्षाओं, निःशुल्क ई-पुस्तकों और अनन्य सौदों के लिए हमारे न्यूज़लेटर से जुड़ें!
एक और क़दम…!
कृपया उस ईमेल में अपने ईमेल पते की पुष्टि करें जिसे हमने अभी आपको भेजा है।