MapReduce एक आवश्यक प्रोग्रामिंग अवधारणा है जिसे पेशेवर डेटा इंजीनियर बनने के लिए आपको मास्टर होना चाहिए। यह वितरित बड़े डेटा फ़ाइल प्रबंधन प्रणालियों के समाधान प्रदान करता है। इसलिए, MapReduce की सैद्धांतिक पृष्ठभूमि को समझने से आपके लिए तकनीक सीखना आसान हो जाएगा।

लेकिन MapReduce क्या है, और यह वितरित फाइल सिस्टम में कैसे काम करता है? आप इस पोस्ट में जानेंगे।

मैपरेडस क्या है?

MapReduce एक डेटा इंजीनियरिंग मॉडल है जो प्रोग्राम या एप्लिकेशन पर लागू होता है जो सर्वर या नोड्स के समानांतर क्लस्टर के भीतर बड़े डेटा लॉजिक को प्रोसेस करता है। यह कई डेटा नोड्स में एक प्रोसेसिंग लॉजिक वितरित करता है और परिणामों को क्लाइंट-सर्वर में एकत्रित करता है।

MapReduce सुनिश्चित करता है कि डेटा के आकार की परवाह किए बिना प्रसंस्करण तेज, मेमोरी-कुशल और विश्वसनीय है।

Hadoop फ़ाइल सिस्टम (HDFS), Google फ़ाइल सिस्टम (GFS), Apache Kafka, GlusterFS, और बहुत कुछ वितरित बड़े डेटा फ़ाइल सिस्टम के उदाहरण हैं जो MapReduce एल्गोरिथम का उपयोग करते हैं।

एक वितरित फाइल सिस्टम क्या है?

एक वितरित फ़ाइल सिस्टम (डीएफएस) कंप्यूटिंग में भंडारण की एक विधि है जिसमें बड़ी डेटा फ़ाइलों को छोटे टुकड़ों में विभाजित करना और उन्हें सिस्टम के भीतर कई सर्वरों पर फैलाना शामिल है। यह विभिन्न स्रोतों के ग्राहकों को डेटा लिखने और पढ़ने, साझा करने और डेटा पर प्रोग्राम करने योग्य तर्क चलाने की अनुमति देता है—ठीक कहीं से भी।

instagram viewer

एक वितरित फ़ाइल सिस्टम में आम तौर पर प्राथमिक सर्वर होता है (जिसे Hadoop में NameNode भी कहा जाता है), समानांतर क्लस्टर, और कई नोड्स या सर्वर जिसमें प्रतिकृति डेटा भाग होते हैं, सभी डेटा में केंद्र। हालाँकि, वितरित फ़ाइल सिस्टम के भीतर प्रत्येक क्लस्टर में सैकड़ों से हज़ारों नोड होते हैं।

प्राथमिक सर्वर स्वचालित रूप से क्लस्टर के भीतर परिवर्तनों का पता लगाता है। तो यह प्रत्येक नोड के अनुसार भूमिकाएँ प्रदान कर सकता है।

जब प्राथमिक सर्वर डेटा फ़ाइल प्राप्त करता है, तो वह इसे DFS के भीतर क्लस्टर को भेजता है। ये क्लस्टर डेटा को अपने भीतर प्रत्येक नोड में विभाजित करते हैं और वितरित करते हैं। प्रत्येक नोड तब डेटा को एक श्रृंखला बनाने के लिए डेटा ब्लॉक में दोहराता है। इस बिंदु पर, प्रत्येक नोड एक चंक सर्वर बन जाता है।

संबंधित:डेटा केंद्र क्या हैं और वे महत्वपूर्ण क्यों हैं?

डेटा तक पहुंच को प्रबंधित करने के अलावा, प्राथमिक सर्वर प्रत्येक फ़ाइल पर मेटाडेटा एनोटेशन रखता है। इस तरह, यह जानता है कि कौन सा नोड प्रत्येक क्लस्टर में कौन सी फाइल को संभालता है।

वितरित फाइल सिस्टम में MapReduce कैसे काम करता है?

जैसा कि पहले उल्लेख किया गया है, डीएफएस में कई चंक सर्वरों में बड़ा डेटा उपलब्ध है। इन डेटा फ़ाइलों पर प्रोग्राम करने योग्य तर्क करने का एक तरीका उन्हें एक में एकत्रित करना है। फिर आप उन्हें एक ही सर्वर में खींच सकते हैं, जो अब तर्क को संभालता है।

जबकि यह डेटा को क्वेरी करने का एक पारंपरिक तरीका है, समस्या यह है कि डेटा एकल सर्वर के अंदर फिर से संपूर्ण हो जाता है। तो एक सर्वर को अभी भी कई पेटाबाइट डेटा पर तर्क का प्रबंधन करना होगा। दुर्भाग्य से, यह वह समस्या थी जिसे सिस्टम ने पहले हल करने का इरादा किया था। तो यह सबसे अच्छा अभ्यास नहीं है, आखिरकार।

संबंधित:SQL जॉइन के साथ एक साथ कई डेटाबेस टेबल्स को कैसे क्वेरी करें

इसके अलावा, एकल सर्वर में ऐसा एकत्रीकरण कई प्रदर्शन जोखिम पैदा करता है। ये सर्वर क्रैश, खराब गणना दक्षता, उच्च विलंबता, उच्च मेमोरी खपत और कमजोरियों से लेकर अधिक तक हो सकते हैं।

लेकिन प्रोग्राम करने योग्य तर्क को चलाने का एक और तरीका है कि प्रत्येक वितरित सर्वर के अंदर डेटा को टुकड़ों में छोड़ दिया जाए। और फिर प्रत्येक सर्वर में तर्क फ़ंक्शन को इंजेक्ट करें। इसका मतलब है कि क्लस्टर के भीतर प्रत्येक चंक सर्वर अब इसकी गणना को संभालता है। इस दृष्टिकोण का उपयोग करने का मतलब है कि डेटा को एक सर्वर में एकत्रित या खींचने की कोई आवश्यकता नहीं है।

वितरित डेटा फ़ाइल सिस्टम में MapReduce अवधारणा है। यह सुनिश्चित करता है कि किसी एकल सर्वर को स्रोत से डेटा खींचने की आवश्यकता नहीं है। इसके बजाय, यह प्रोसेसिंग फ़ंक्शन (MapReduce) को अलग-अलग कई चंक नोड्स में फैलाता है क्लस्टर, इसलिए प्रत्येक क्लस्टर के भीतर प्रत्येक नोड एकल को ओवरलोड किए बिना व्यक्तिगत रूप से तर्क को संभालता है सर्वर।

नतीजतन, कई सर्वर समवर्ती डेटा के बिट्स पर तर्क को संभालते हैं। सर्वरों के बीच श्रम के इस वितरण के परिणामस्वरूप अन्य सकारात्मकताओं के साथ इष्टतम प्रदर्शन और उच्च सुरक्षा प्राप्त होती है।

MapReduce परिणाम को DFS में कैसे संसाधित किया जाता है?

यहां बताया गया है कि संपूर्ण MapReduce प्रसंस्करण एक DFS में कैसे काम करता है:

  • प्राथमिक सर्वर क्लाइंट से एक बड़ी डेटा क्वेरी (MapReduce फ़ंक्शन) प्राप्त करता है।
  • इसके बाद यह प्रत्येक क्लस्टर में इसे प्रत्येक नोड में फैलाने के लिए भेजता है।
  • प्रत्येक नोड MapReduce फ़ंक्शन को संसाधित करता है और इसके परिणाम को संचयित करता है।
  • एक अन्य सर्वर प्रत्येक नोड से परिणामों को जोड़ता है और उन्हें प्राथमिक सर्वर पर वापस भेजता है।
  • प्राथमिक सर्वर तब क्लाइंट को प्रतिक्रिया के रूप में परिणाम भेजता है।

इस प्रकार, प्राथमिक सर्वर का एकमात्र काम क्लाइंट को आसानी से गणना किए गए परिणाम भेजना, परिवर्तनों को सुनना और डेटा तक पहुंच का प्रबंधन करना है। यह कोई गणना नहीं करता है। यही कारण है कि अधिकांश क्लाउड कंप्यूटिंग एप्लिकेशन उनके द्वारा संसाधित किए जाने वाले डेटा की मात्रा के बावजूद प्रभावशाली रूप से तेज़ होते हैं।

MapReduce में नक्शा और कमी वास्तव में क्या है?

MapReduce एक वितरित फ़ाइल प्रबंधन प्रणाली (DFS) में बड़े डेटा को संसाधित करने के लिए दो प्रोग्रामिंग तर्क का उपयोग करता है। ये एक मानचित्र हैं और फ़ंक्शन को कम करते हैं।

नक्शा फ़ंक्शन वितरित फ़ाइल सिस्टम के प्रत्येक क्लस्टर में प्रत्येक डेटा नोड पर प्रसंस्करण कार्य करता है। कम करना फ़ंक्शन तब प्रत्येक चंक सर्वर द्वारा लौटाए गए परिणामों को एकत्रित करता है और परिणाम एकत्रीकरण के लिए इसे डीएफएस के भीतर किसी अन्य सर्वर पर भेजता है। प्राप्त करने वाला सर्वर इस गणना को प्राथमिक सर्वर को भेजता है, जो क्लाइंट-साइड सर्वर पर लौटाया गया मान पोस्ट करता है।

क्या होता है जब एक चंक सर्वर डाउन हो जाता है?

वितरित फ़ाइल सिस्टम (DFS) में सर्वर कभी-कभी डाउनटाइम का अनुभव कर सकते हैं। आप सोच सकते हैं कि इससे पूरा सिस्टम टूट जाएगा, लेकिन ऐसा नहीं है।

कंप्यूटिंग में एक प्रणाली है जो इस तरह के आसन्न टूटने को रोकती है। इसे दोष सहिष्णुता कहा जाता है।

संबंधित:क्या है क्लाऊड कम्प्यूटिंग? क्लाउड टेक्नोलॉजी कैसे काम करती है?

इसलिए, जब डेटा प्रोसेसिंग के दौरान कोई सर्वर बंद हो जाता है, तब भी गलती सहनशीलता सुनिश्चित करती है कि प्राथमिक सर्वर तुरंत इसका पता लगा लेता है। और चूंकि नोड्स में डेटा विखंडू की प्रतिकृति होती है, प्राथमिक सर्वर तुरंत प्रसंस्करण कार्य को दूसरे सर्वर पर स्थानांतरित कर देता है। इस तरह, DFS के भीतर सर्वर डाउनटाइम डेटा प्रोसेसिंग को प्रभावित नहीं करता है।

MapReduce बिग डेटा प्रोसेसिंग को आसान बनाता है

MapReduce एक आवश्यक मॉडल है जो वितरित फ़ाइल सिस्टम में कंप्यूटिंग को आसान बनाता है। क्योंकि यह कई नोड्स को एक साथ गणना चलाने की अनुमति देता है, यह विभिन्न तकनीकी दिग्गजों द्वारा बड़े डेटा विश्लेषण के साथ आने वाली कई समस्याओं को हल करने के लिए उपयोग की जाने वाली एक त्वरित विधि है।

Google, Amazon, IBM, दूसरों के बीच, इस अवधारणा का उपयोग करने वाली कंपनियों के उदाहरण हैं। उदाहरण के लिए, Google, Google खोज के दौरान क्वेरी परिणाम लाने के लिए MapReduce अवधारणा को लागू करता है।

बिग डेटा क्या है, यह महत्वपूर्ण क्यों है और यह कितना खतरनाक है?

बिग डेटा कई उद्योगों को शक्ति प्रदान करता है और हमारे सभी जीवन पर प्रभाव डालता है। लेकिन क्या यह अधिक खतरनाक या मददगार है?

आगे पढ़िए

साझा करनाकलरवईमेल
संबंधित विषय
  • प्रोग्रामिंग
  • प्रोग्रामिंग
  • बड़ा डेटा
  • डेटा विश्लेषण
लेखक के बारे में
इडोवु ओमिसोला (133 लेख प्रकाशित)

Idowu कुछ भी स्मार्ट तकनीक और उत्पादकता के बारे में भावुक है। अपने खाली समय में, वह कोडिंग के साथ खेलता है और जब वह ऊब जाता है तो शतरंज की बिसात पर चला जाता है, लेकिन उसे कभी-कभी दिनचर्या से अलग होना भी पसंद होता है। लोगों को आधुनिक तकनीक के बारे में बताने का उनका जुनून उन्हें और अधिक लिखने के लिए प्रेरित करता है।

Idowu Omisola. की और फ़िल्में या टीवी शो

हमारे न्यूज़लेटर की सदस्यता लें

तकनीकी युक्तियों, समीक्षाओं, निःशुल्क ई-पुस्तकों और अनन्य सौदों के लिए हमारे न्यूज़लेटर से जुड़ें!

सब्सक्राइब करने के लिए यहां क्लिक करें