डेटा की सफाई में निस्संदेह डेटा विज्ञान में एक टन समय लगता है, और डेटा गायब होना उन चुनौतियों में से एक है जिनका आप अक्सर सामना करेंगे। पांडा एक मूल्यवान पायथन डेटा हेरफेर उपकरण है जो अन्य चीजों के अलावा, आपके डेटासेट में गुम मूल्यों को ठीक करने में आपकी मदद करता है।
आप लापता डेटा को या तो छोड़ कर या उन्हें अन्य मानों से भरकर ठीक कर सकते हैं। इस लेख में, हम पांडा का उपयोग करके लापता डेटा को भरने के विभिन्न तरीकों की व्याख्या और अन्वेषण करेंगे।
1. fillna() विधि का प्रयोग करें:
फिल्ना () फ़ंक्शन आपके डेटासेट के माध्यम से पुनरावृत्त होता है और सभी शून्य पंक्तियों को एक निर्दिष्ट मान से भरता है। यह कुछ वैकल्पिक तर्कों को स्वीकार करता है—निम्नलिखित पर ध्यान दें:
मूल्य: यह वह मान है जिसे आप अनुपलब्ध पंक्तियों में सम्मिलित करना चाहते हैं।
तरीका: आपको लापता मानों को आगे या पीछे भरने देता है। यह स्वीकार करता है 'बीफिल' या 'फिल' पैरामीटर।
जगह में: यह एक सशर्त बयान स्वीकार करता है। यदि सही है, तो यह डेटाफ़्रेम को स्थायी रूप से संशोधित करता है। अन्यथा, ऐसा नहीं होता है।
शुरू करने से पहले, सुनिश्चित करें कि आप अपने में पांडा स्थापित करें पायथन आभासी वातावरण का उपयोग करते हुए रंज आपके टर्मिनल में:
पाइप स्थापित पांडा
इसके बाद, पायथन लिपि के अंदर, हम एक अभ्यास DataFrame बनाएंगे और शून्य मान डालेंगे (नेन) कुछ पंक्तियों में:
आयात पांडा
डीएफ = पांडा। डेटाफ़्रेम ({'ए': [0, 3, कोई नहीं, 10, 3, कोई नहीं],
'बी': [कोई नहीं, कोई नहीं, 7.13, 13.82, 7, 7],
'सी': [कोई नहीं, "पंडस", कोई नहीं, "पंडस", "पायथन", "जावास्क्रिप्ट"]})
सम्बंधित:पंडों का उपयोग करके पायथन लिपियों में एक्सेल डेटा कैसे आयात करें
अब, देखें कि आप पांडा में विभिन्न उपलब्ध विधियों का उपयोग करके इन लापता मूल्यों को कैसे भर सकते हैं।
इस पद्धति में लापता मानों को परिकलित औसत से बदलना शामिल है। लापता डेटा को माध्य या माध्य मान से भरना तब लागू होता है जब शामिल कॉलम में पूर्णांक या फ्लोट डेटा प्रकार होते हैं।
आप लापता डेटा को मोड मान से भी भर सकते हैं, जो कि सबसे अधिक होने वाला मान है। यह पूर्णांक या फ़्लोट्स पर भी लागू होता है। लेकिन यह आसान है जब विचाराधीन कॉलम में तार होते हैं।
आपके द्वारा पहले बनाए गए डेटाफ़्रेम में अनुपलब्ध पंक्तियों में माध्य और माध्यिका सम्मिलित करने का तरीका यहां दिया गया है:
# प्रत्येक कॉलम का माध्य मान उसकी अनुपलब्ध पंक्तियों में सम्मिलित करने के लिए:
df.fillna (df.mean ()। राउंड (1), इनप्लेस = ट्रू)
#माध्यिका के लिए:
df.fillna (df.median ()। राउंड (1), इनप्लेस = ट्रू)
प्रिंट (डीएफ)
मोडल मान को सम्मिलित करना जैसा कि आपने ऊपर माध्य और माध्यिका के लिए किया था, संपूर्ण डेटाफ़्रेम को कैप्चर नहीं करता है। लेकिन आप इसे इसके बजाय एक विशिष्ट कॉलम में सम्मिलित कर सकते हैं, कहते हैं, कॉलम सी:
df['C'].fillna (df['C'].mode()[0], inplace=True)
इसके साथ ही, प्रत्येक कॉलम के मोडल मान को उसकी लापता पंक्तियों में एक बार में सम्मिलित करना अभी भी संभव है लूप के लिए उपयोग करना:
df.columns में i के लिए:
df[i].fillna (df[i].mode()[0], inplace=True)
प्रिंट (डीएफ)
यदि आप माध्य, माध्यिका या विधा सम्मिलित करते समय स्तंभ-विशिष्ट होना चाहते हैं:
df.fillna({"A":df['A'].mean(),
"बी": डीएफ ['बी']। माध्यिका (),
"सी": डीएफ ['सी']। मोड () [0]},
जगह = सच)
प्रिंट (डीएफ)
Ffill का उपयोग करके मानों के साथ नल पंक्तियों को भरें
इसमें भरने की विधि को के रूप में निर्दिष्ट करना शामिल है फिल्ना () समारोह। यह विधि प्रत्येक लापता पंक्ति को उसके ऊपर निकटतम के मान से भरती है।
आप इसे फॉरवर्ड-फिलिंग भी कह सकते हैं:
df.fillna (विधि = 'ffill', inplace=True)
bfill का उपयोग करके गुम पंक्तियों को मानों से भरें
यहां, आप इसे बदल देंगे भरण ऊपर वर्णित विधि के साथ भरण. यह DataFrame में प्रत्येक लापता पंक्ति को उसके नीचे के निकटतम मान से भरता है।
इसे पिछड़ा-भरना कहा जाता है:
df.fillna (विधि = 'bfill', inplace=True)
2. बदलें () विधि
आप की जगह ले सकते हैं नेन माध्य, माध्यिका, बहुलक या किसी अन्य मान के साथ किसी विशिष्ट स्तंभ में मान।
सम्बंधित:डेटाफ़्रेम में हेरफेर करने के लिए पांडा कमांड
देखें कि नामित कॉलम में इसके माध्य, माध्यिका या मोड के साथ रिक्त पंक्तियों को बदलकर यह कैसे काम करता है:
आयात पांडा
आयात सुन्न #इसके लिए आवश्यक है कि आपने पहले numpy स्थापित किया हो
#अशक्त मानों को माध्य से बदलें:
df['A'].replace([numpy.nan], df[A].mean(), inplace=True)
# कॉलम A को माध्यिका से बदलें:
df['B'].replace([numpy.nan], df[B].median(), inplace=True)
# कॉलम C के लिए मोडल मान का उपयोग करें:
df['C'].replace([numpy.nan], df['C'].mode()[0], inplace=True)
प्रिंट (डीएफ)
3. लापता डेटा को इंटरपोलेट के साथ भरें ()
प्रक्षेप () फ़ंक्शन अनुपलब्ध पंक्तियों का अनुमान लगाने के लिए डेटाफ़्रेम में मौजूदा मानों का उपयोग करता है।
यह कैसे काम करता है यह देखने के लिए निम्न कोड चलाएँ:
#स्तंभ के आर-पार पीछे की ओर प्रक्षेपित करें:
df.इंटरपोलेट (विधि = 'रैखिक', सीमा_दिशा = 'पिछड़ा', इनप्लेस = सही)
#स्तंभ में आगे के क्रम में इंटरपोलेट करें:
df.इंटरपोलेट (विधि = 'रैखिक', सीमा_दिशा = 'आगे', इनप्लेस = सही)
लापता पंक्तियों से सावधानी से निपटें
जबकि हमने केवल लापता डेटा को औसत, मोड और अन्य विधियों जैसे डिफ़ॉल्ट मानों से भरने पर विचार किया है, लापता मानों को ठीक करने के लिए अन्य तकनीकें मौजूद हैं। उदाहरण के लिए, डेटा वैज्ञानिक कभी-कभी मामले के आधार पर इन लापता पंक्तियों को हटा देते हैं।
इसके अलावा, इसका उपयोग करने से पहले अपनी रणनीति के बारे में गंभीर रूप से सोचना आवश्यक है। अन्यथा, आपको अवांछित विश्लेषण या भविष्यवाणी के परिणाम मिल सकते हैं। कुछ प्रारंभिक डेटा विज़ुअलाइज़ेशन रणनीतियाँ मदद कर सकती हैं।
जुपिटर नोटबुक ग्राफ़ के साथ अपना डेटा प्रदर्शित करें।
आगे पढ़िए
- प्रोग्रामिंग
- अजगर
- प्रोग्रामिंग
- डेटाबेस

Idowu कुछ भी स्मार्ट तकनीक और उत्पादकता के बारे में भावुक है। अपने खाली समय में, वह कोडिंग के साथ खेलता है और जब वह ऊब जाता है तो शतरंज की बिसात पर चला जाता है, लेकिन वह कभी-कभार दिनचर्या से अलग होना भी पसंद करता है। लोगों को आधुनिक तकनीक के बारे में बताने का उनका जुनून उन्हें और अधिक लिखने के लिए प्रेरित करता है।
हमारे न्यूज़लेटर की सदस्यता लें
तकनीकी युक्तियों, समीक्षाओं, निःशुल्क ई-पुस्तकों और अनन्य सौदों के लिए हमारे न्यूज़लेटर से जुड़ें!
सब्सक्राइब करने के लिए यहां क्लिक करें