डेटाफ़्रेम में हेरफेर करने के लिए 30 पांडा कमांड

पांडा पुस्तकालय अजगर आधारित डेटा विज्ञान को एक आसान सवारी बनाता है। यह पढ़ने, मर्ज करने, सॉर्ट करने, डेटा की सफाई, और बहुत कुछ के लिए एक लोकप्रिय पायथन लाइब्रेरी है। हालाँकि पांडा का उपयोग करना और डेटासेट पर लागू करना आसान है, लेकिन इसमें सीखने के लिए कई डेटा हेरफेर कार्य हैं।

आप पांडा का उपयोग कर सकते हैं, लेकिन एक अच्छा मौका है कि आप डेटा से संबंधित समस्याओं को हल करने के लिए इसका कम उपयोग कर रहे हैं। यहां हर डेटा वैज्ञानिक को पता होना चाहिए कि पांडा कार्यों में हेरफेर करने वाले मूल्यवान डेटा की हमारी सूची यहां दी गई है।

अपने आभासी वातावरण में पांडा स्थापित करें

आगे बढ़ने से पहले, सुनिश्चित करें कि आप pip का उपयोग करके अपने आभासी वातावरण में पांडा स्थापित करते हैं:

पाइप स्थापित पांडा

इसे स्थापित करने के बाद, आयात करें पांडा आपकी स्क्रिप्ट के शीर्ष पर, और चलिए आगे बढ़ते हैं।

1. पांडा डेटा ढांचा

आप उपयोग करते हैं पांडा डेटा ढांचा() पांडा में डेटाफ़्रेम बनाने के लिए। इस फ़ंक्शन का उपयोग करने के दो तरीके हैं।

आप एक शब्दकोश पास करके डेटाफ़्रेम कॉलम-वार बना सकते हैं पांडा डेटा ढांचा() समारोह। यहाँ, प्रत्येक कुंजी एक कॉलम है, जबकि मान पंक्तियाँ हैं:

instagram viewer

आयात पांडा
डेटाफ्रेम = पांडा। डेटाफ़्रेम ({"ए": [1, 3, 4], "बी": [5, 9, 12]})
प्रिंट (डेटाफ़्रेम)

दूसरी विधि डेटाफ़्रेम को पंक्तियों में बनाना है। लेकिन यहां, आप कॉलम से मान (पंक्ति आइटम) को अलग करेंगे। प्रत्येक सूची में डेटा की संख्या (पंक्ति डेटा) को भी स्तंभों की संख्या से मेल खाना चाहिए।

आयात पांडा
डेटाफ्रेम = पांडा। डेटाफ़्रेम ([[1, 4, 5], [7, 19, 13]], कॉलम = ["जे", "के", "एल"])
प्रिंट (डेटाफ़्रेम)

2. पंडों में एक्सेल या सीएसवी से पढ़ें और लिखें

आप पांडा के साथ एक्सेल या सीएसवी फाइलों को पढ़ या लिख सकते हैं।

एक्सेल या सीएसवी फाइलें पढ़ना

एक्सेल फ़ाइल पढ़ने के लिए:

#Excel फ़ाइल पथ के साथ example.xlsx बदलें
DataFrame = DataFrame.read_excel ("example.xlsx")

CSV फ़ाइल को पढ़ने का तरीका यहां दिया गया है:

#example.csv को अपने CSV फ़ाइल पथ से बदलें
डेटाफ़्रेम = डेटाफ़्रेम.read_csv ("example.csv")

एक्सेल या सीएसवी को लिखना

एक्सेल या सीएसवी को लिखना एक प्रसिद्ध पांडा ऑपरेशन है। और यह नई गणना की गई तालिकाओं को अलग-अलग डेटाशीट में सहेजने के लिए आसान है।

एक्सेल शीट पर लिखने के लिए:

DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")

यदि आप CSV को लिखना चाहते हैं:

DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")

आप पंडों का उपयोग करके डेटाफ़्रेम में प्रत्येक कॉलम की केंद्रीय प्रवृत्तियों की गणना भी कर सकते हैं।

यहां प्रत्येक कॉलम का माध्य मान प्राप्त करने का तरीका बताया गया है:

डेटाफ्रेम.मीन ()

माध्यिका या मोड मान के लिए, प्रतिस्थापित करें अर्थ() साथ माध्यिका () या तरीका().

4. DataFrame.transform

पांडा' डेटाफ्रेम.ट्रांसफॉर्म () डेटाफ़्रेम के मानों को संशोधित करता है। यह एक फ़ंक्शन को एक तर्क के रूप में स्वीकार करता है।

उदाहरण के लिए, नीचे दिया गया कोड डेटाफ़्रेम में प्रत्येक मान को तीन का उपयोग करके गुणा करता है पायथन का लैम्ब्डा फ़ंक्शन:

DataFrame = DataFrame.transform (लैम्ब्डा y: y*3)
प्रिंट (डेटाफ़्रेम)

5. DataFrame.isnull

यह फ़ंक्शन एक बूलियन मान देता है और सभी पंक्तियों को चिह्नित करता है जिसमें शून्य मान होते हैं सत्य:

DataFrame.isnull ()

उपरोक्त कोड का परिणाम बड़े डेटासेट के लिए पढ़ना मुश्किल हो सकता है। तो आप का उपयोग कर सकते हैं isnull ()। योग () इसके बजाय कार्य करें। यह प्रत्येक कॉलम के लिए सभी अनुपलब्ध मानों का सारांश देता है:

DataFrame.isnull ()। योग ()

6. Dataframe.info

जानकारी () समारोह एक है आवश्यक पांडा ऑपरेशन. यह इसके बजाय प्रत्येक कॉलम के लिए गैर-अनुपलब्ध मानों का सारांश देता है:

DataFrame.info ()

7. डेटाफ़्रेम। वर्णन करें

वर्णन करना() फ़ंक्शन आपको डेटाफ़्रेम का सारांश आँकड़ा देता है:

डेटाफ़्रेम। वर्णन ()

8. DataFrame.replace

का उपयोग डेटाफ्रेम.बदलें () पंडों में विधि, आप चयनित पंक्तियों को अन्य मानों से बदल सकते हैं।

उदाहरण के लिए, अमान्य पंक्तियों को स्वैप करने के लिए नेन:

# सुनिश्चित करें कि आप इसके काम करने के लिए पिप इंस्टाल numpy करें
आयात सुन्न
आयात पांडा
# एक इनप्लेस कीवर्ड जोड़ना और इसे ट्रू पर सेट करना बदलाव को स्थायी बनाता है:
DataFrame.replace([invalid_1, अमान्य_2], numpy.nan, inplace=True)
प्रिंट (डेटाफ़्रेम)

9. DataFrame.fillna

यह फ़ंक्शन आपको रिक्त पंक्तियों को किसी विशेष मान से भरने देता है। आप सभी भर सकते हैं नेन उदाहरण के लिए माध्य मान वाले डेटासेट में पंक्तियाँ:

DataFrame.fillna (df.mean (), इनप्लेस = ट्रू)
प्रिंट (डेटाफ़्रेम)

आप कॉलम-विशिष्ट भी हो सकते हैं:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
प्रिंट (डेटाफ़्रेम)

10. DataFrame.dropna

ड्रॉपना () विधि शून्य मान वाली सभी पंक्तियों को हटा देती है:

DataFrame.dropna (इनप्लेस = ट्रू)
प्रिंट (डेटाफ़्रेम)

11. DataFrame.insert

आप पांडा का उपयोग कर सकते हैं ' सम्मिलित करें () डेटाफ़्रेम में एक नया कॉलम जोड़ने के लिए कार्य करता है। यह तीन खोजशब्दों को स्वीकार करता है, आम नाम, इसके डेटा की एक सूची, और इसकी स्थान, जो एक कॉलम इंडेक्स है।

यहां बताया गया है कि यह कैसे काम करता है:

DataFrame.insert (स्तंभ = 'सी', मान = [3, 4, 6, 7], स्थान = 0)
प्रिंट (डेटाफ़्रेम)

उपरोक्त कोड शून्य कॉलम इंडेक्स पर नया कॉलम सम्मिलित करता है (यह पहला कॉलम बन जाता है)।

12. DataFrame.loc

आप उपयोग कर सकते हैं एलओसी किसी विशेष सूचकांक में तत्वों को खोजने के लिए। उदाहरण के लिए, तीसरी पंक्ति में सभी आइटम देखने के लिए:

डेटाफ्रेम.लोक[2]

13. डेटाफ्रेम.पॉप

यह फ़ंक्शन आपको पांडा डेटाफ़्रेम से एक निर्दिष्ट कॉलम को निकालने देता है।

यह स्वीकार करता है a मद कीवर्ड, पॉप किए गए कॉलम को लौटाता है, और इसे बाकी डेटाफ़्रेम से अलग करता है:

DataFrame.pop (आइटम = 'कॉलम_नाम')
प्रिंट (डेटाफ़्रेम)

14. DataFrame.max, न्यूनतम

पांडा का उपयोग करके अधिकतम और न्यूनतम मान प्राप्त करना आसान है:

डेटाफ्रेम.मिन ()

उपरोक्त कोड प्रत्येक कॉलम के लिए न्यूनतम मान देता है। अधिकतम प्राप्त करने के लिए, प्रतिस्थापित करें मिनट साथ मैक्स.

15. DataFrame.join

शामिल हों () पांडा का कार्य आपको अलग-अलग कॉलम नामों के साथ डेटाफ़्रेम को मर्ज करने देता है। आप बाएँ, दाएँ, भीतरी या बाहरी जोड़ का उपयोग कर सकते हैं। डेटाफ़्रेम को दो अन्य लोगों के साथ बाएँ-जुड़ने के लिए:

#बाएं-छोटे वाले लंबे कॉलम में शामिल हों
newDataFrame = df1.join ([df_shorter2, df_shorter3], कैसे = 'बाएं') 
प्रिंट (newDataFrame)

समान कॉलम नामों के साथ डेटाफ़्रेम में शामिल होने के लिए, आप बाईं या दाईं ओर प्रत्यय शामिल करके उनमें अंतर कर सकते हैं। इसे शामिल करके करें लसफिक्स या rsuffix कीवर्ड:

newDataFrame = df1.join ([df2, rsuffix = '_', कैसे = 'बाहरी') 
प्रिंट (newDataFrame)

16. DataFrame.combine

जोड़ना() फ़ंक्शन दो डेटाफ़्रेम को मर्ज करने के लिए काम आता है जिसमें सेट मानदंड के आधार पर समान कॉलम नाम होते हैं। यह स्वीकार करता है समारोह खोजशब्द।

उदाहरण के लिए, केवल अधिकतम मानों के आधार पर समान कॉलम नामों वाले दो डेटाफ़्रेम को मर्ज करने के लिए:

newDataFrame = df.combine (df2, numpy.minimum)
प्रिंट (newDataFrame)

ध्यान दें: आप एक कस्टम चयन फ़ंक्शन को भी परिभाषित कर सकते हैं और सम्मिलित कर सकते हैं सुन्न.न्यूनतम.

17. DataFrame.astype

एस्टाइप () फ़ंक्शन किसी विशेष कॉलम या डेटाफ़्रेम के डेटा प्रकार को बदलता है।

उदाहरण के लिए, DataFrame के सभी मानों को स्ट्रिंग में बदलने के लिए:

DataFrame.astype (str)

18. DataFrame.sum

योग () पांडा में फ़ंक्शन प्रत्येक कॉलम में मानों का योग देता है:

DataFrame.sum ()

आप का उपयोग करके सभी मदों का संचयी योग भी पा सकते हैं कमसम ():

DataFrame.cumsum ()

19. DataFrame.drop

पांडा' बूंद() फ़ंक्शन डेटाफ़्रेम में विशिष्ट पंक्तियों या स्तंभों को हटा देता है। इसका उपयोग करने के लिए आपको कॉलम नाम या पंक्ति अनुक्रमणिका और अक्ष की आपूर्ति करनी होगी।

विशिष्ट कॉलम हटाने के लिए, उदाहरण के लिए:

df.ड्रॉप (कॉलम = ['कॉलम 1', 'कॉलम 2'], अक्ष = 0)

उदाहरण के लिए, अनुक्रमणिका 1, 3, और 4 पर पंक्तियों को छोड़ने के लिए:

df.ड्रॉप ([1, 3, 4], अक्ष = 0)

20. DataFrame.corr

पूर्णांक या फ्लोट कॉलम के बीच संबंध खोजना चाहते हैं? पांडा आपको इसका उपयोग करके प्राप्त करने में मदद कर सकते हैं गलत () समारोह:

DataFrame.corr ()

उपरोक्त कोड एक नया डेटाफ़्रेम देता है जिसमें सभी पूर्णांक या फ्लोट कॉलम के बीच सहसंबंध अनुक्रम होता है।

21. DataFrame.add

जोड़ें() फ़ंक्शन आपको DataFrame में प्रत्येक मान के लिए एक विशिष्ट संख्या जोड़ने देता है। यह डेटाफ़्रेम के माध्यम से पुनरावृति करके और प्रत्येक आइटम पर काम करके काम करता है।

सम्बंधित:पायथन में लूप्स का उपयोग कैसे करें

उदाहरण के लिए, पूर्णांक या फ़्लोट्स वाले विशिष्ट कॉलम में प्रत्येक मान में 20 जोड़ने के लिए:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

अतिरिक्त फ़ंक्शन की तरह, आप डेटाफ़्रेम या विशिष्ट कॉलम में प्रत्येक मान से एक संख्या घटा सकते हैं:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

यह पंडों के अतिरिक्त कार्य का गुणन संस्करण है:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

इसी तरह, आप प्रत्येक डेटा बिंदु को एक कॉलम या डेटाफ़्रेम में एक विशिष्ट संख्या से विभाजित कर सकते हैं:

DataFrame['interger_column'].div (20)

25. DataFrame.std

का उपयोग एसटीडी () फ़ंक्शन, पांडा आपको डेटाफ़्रेम में प्रत्येक कॉलम के लिए मानक विचलन की गणना करने देता है। यह डेटासेट में प्रत्येक कॉलम के माध्यम से पुनरावृत्ति करके और प्रत्येक के लिए मानक विचलन की गणना करके काम करता है:

डेटाफ्रेम.एसटीडी ()

26. DataFrame.sort_values

आप किसी विशेष कॉलम के आधार पर मानों को आरोही या अवरोही क्रम में भी क्रमबद्ध कर सकते हैं। डेटाफ़्रेम को अवरोही क्रम में क्रमबद्ध करने के लिए, उदाहरण के लिए:

newDataFrame = DataFrame.sort_values (द्वारा = "colmun_name", अवरोही = सत्य)

27. DataFrame.melt

पिघल () पांडा में फ़ंक्शन डेटाफ़्रेम में कॉलम को अलग-अलग पंक्तियों में फ़्लिप करता है। यह डेटाफ़्रेम की शारीरिक रचना को उजागर करने जैसा है। तो यह आपको प्रत्येक कॉलम को निर्दिष्ट मान को स्पष्ट रूप से देखने देता है।

newDataFrame = DataFrame.melt ()

28. डेटाफ्रेम.गिनती

यह फ़ंक्शन प्रत्येक कॉलम में आइटम्स की कुल संख्या देता है:

डेटाफ्रेम.गिनती ()

29. DataFrame.query

पांडा' जिज्ञासा() आपको आइटम को उनके इंडेक्स नंबर का उपयोग करके कॉल करने देता है। तीसरी पंक्ति में आइटम प्राप्त करने के लिए, उदाहरण के लिए:

डेटाफ्रेम.क्वेरी ('4') # चौथे इंडेक्स पर क्वेरी को कॉल करें

30. DataFrame.where

कहाँ पे() फ़ंक्शन एक पांडा क्वेरी है जो एक कॉलम में विशिष्ट मान प्राप्त करने के लिए एक शर्त स्वीकार करता है। उदाहरण के लिए, 30 से कम उम्र के सभी लोगों को an. से प्राप्त करने के लिए उम्र स्तंभ:

DataFrame.where (DataFrame['Age'] <30)

उपरोक्त कोड एक डेटाफ़्रेम को आउटपुट करता है जिसमें 30 से कम उम्र के सभी आयु होते हैं लेकिन असाइन करते हैं नेन उन पंक्तियों के लिए जो शर्त को पूरा नहीं करती हैं।

पांडा के साथ एक प्रो की तरह डेटा संभालें

पांडा पायथन के साथ छोटे से बड़े पैमाने पर डेटासेट को संभालने के लिए कार्यों और विधियों का खजाना है। पुस्तकालय विश्लेषण या मशीन सीखने के लिए डेटा को साफ करने, मान्य करने और तैयार करने के लिए भी काम आता है।

इसमें महारत हासिल करने के लिए समय निकालना निश्चित रूप से एक डेटा वैज्ञानिक के रूप में आपके जीवन को आसान बनाता है, और यह प्रयास के लायक है। तो बेझिझक उन सभी कार्यों को उठाएं जिन्हें आप संभाल सकते हैं।

20 पायथन फ़ंक्शंस आपको पता होना चाहिए

पायथन मानक पुस्तकालय में आपके प्रोग्रामिंग कार्यों में मदद करने के लिए कई कार्य हैं। सबसे उपयोगी के बारे में जानें और अधिक मजबूत कोड बनाएं।

आगे पढ़िए

साझा करनाकलरवईमेल

संबंधित विषय

प्रोग्रामिंग
अजगर
प्रोग्रामिंग
डेटाबेस

लेखक के बारे में

इडोवु ओमिसोला (123 लेख प्रकाशित)

Idowu कुछ भी स्मार्ट तकनीक और उत्पादकता के बारे में भावुक है। अपने खाली समय में, वह कोडिंग के साथ खेलता है और जब वह ऊब जाता है तो शतरंज की बिसात पर चला जाता है, लेकिन वह कभी-कभार दिनचर्या से अलग होना भी पसंद करता है। लोगों को आधुनिक तकनीक के बारे में बताने का उनका जुनून उन्हें और अधिक लिखने के लिए प्रेरित करता है।

Idowu Omisola. की और फ़िल्में या टीवी शो

हमारे न्यूज़लेटर की सदस्यता लें

तकनीकी युक्तियों, समीक्षाओं, निःशुल्क ई-पुस्तकों और अनन्य सौदों के लिए हमारे न्यूज़लेटर से जुड़ें!

सब्सक्राइब करने के लिए यहां क्लिक करें

About Technology - denizatm.com