पांडा पुस्तकालय अजगर आधारित डेटा विज्ञान को एक आसान सवारी बनाता है। यह पढ़ने, मर्ज करने, सॉर्ट करने, डेटा की सफाई, और बहुत कुछ के लिए एक लोकप्रिय पायथन लाइब्रेरी है। हालाँकि पांडा का उपयोग करना और डेटासेट पर लागू करना आसान है, लेकिन इसमें सीखने के लिए कई डेटा हेरफेर कार्य हैं।
आप पांडा का उपयोग कर सकते हैं, लेकिन एक अच्छा मौका है कि आप डेटा से संबंधित समस्याओं को हल करने के लिए इसका कम उपयोग कर रहे हैं। यहां हर डेटा वैज्ञानिक को पता होना चाहिए कि पांडा कार्यों में हेरफेर करने वाले मूल्यवान डेटा की हमारी सूची यहां दी गई है।
अपने आभासी वातावरण में पांडा स्थापित करें
आगे बढ़ने से पहले, सुनिश्चित करें कि आप pip का उपयोग करके अपने आभासी वातावरण में पांडा स्थापित करते हैं:
पाइप स्थापित पांडा
इसे स्थापित करने के बाद, आयात करें पांडा आपकी स्क्रिप्ट के शीर्ष पर, और चलिए आगे बढ़ते हैं।
1. पांडा डेटा ढांचा
आप उपयोग करते हैं पांडा डेटा ढांचा() पांडा में डेटाफ़्रेम बनाने के लिए। इस फ़ंक्शन का उपयोग करने के दो तरीके हैं।
आप एक शब्दकोश पास करके डेटाफ़्रेम कॉलम-वार बना सकते हैं पांडा डेटा ढांचा() समारोह। यहाँ, प्रत्येक कुंजी एक कॉलम है, जबकि मान पंक्तियाँ हैं:
आयात पांडा
डेटाफ्रेम = पांडा। डेटाफ़्रेम ({"ए": [1, 3, 4], "बी": [5, 9, 12]})
प्रिंट (डेटाफ़्रेम)
दूसरी विधि डेटाफ़्रेम को पंक्तियों में बनाना है। लेकिन यहां, आप कॉलम से मान (पंक्ति आइटम) को अलग करेंगे। प्रत्येक सूची में डेटा की संख्या (पंक्ति डेटा) को भी स्तंभों की संख्या से मेल खाना चाहिए।
आयात पांडा
डेटाफ्रेम = पांडा। डेटाफ़्रेम ([[1, 4, 5], [7, 19, 13]], कॉलम = ["जे", "के", "एल"])
प्रिंट (डेटाफ़्रेम)
2. पंडों में एक्सेल या सीएसवी से पढ़ें और लिखें
आप पांडा के साथ एक्सेल या सीएसवी फाइलों को पढ़ या लिख सकते हैं।
एक्सेल या सीएसवी फाइलें पढ़ना
एक्सेल फ़ाइल पढ़ने के लिए:
#Excel फ़ाइल पथ के साथ example.xlsx बदलें
DataFrame = DataFrame.read_excel ("example.xlsx")
CSV फ़ाइल को पढ़ने का तरीका यहां दिया गया है:
#example.csv को अपने CSV फ़ाइल पथ से बदलें
डेटाफ़्रेम = डेटाफ़्रेम.read_csv ("example.csv")
एक्सेल या सीएसवी को लिखना
एक्सेल या सीएसवी को लिखना एक प्रसिद्ध पांडा ऑपरेशन है। और यह नई गणना की गई तालिकाओं को अलग-अलग डेटाशीट में सहेजने के लिए आसान है।
एक्सेल शीट पर लिखने के लिए:
DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")
यदि आप CSV को लिखना चाहते हैं:
DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")
आप पंडों का उपयोग करके डेटाफ़्रेम में प्रत्येक कॉलम की केंद्रीय प्रवृत्तियों की गणना भी कर सकते हैं।
यहां प्रत्येक कॉलम का माध्य मान प्राप्त करने का तरीका बताया गया है:
डेटाफ्रेम.मीन ()
माध्यिका या मोड मान के लिए, प्रतिस्थापित करें अर्थ() साथ माध्यिका () या तरीका().
4. DataFrame.transform
पांडा' डेटाफ्रेम.ट्रांसफॉर्म () डेटाफ़्रेम के मानों को संशोधित करता है। यह एक फ़ंक्शन को एक तर्क के रूप में स्वीकार करता है।
उदाहरण के लिए, नीचे दिया गया कोड डेटाफ़्रेम में प्रत्येक मान को तीन का उपयोग करके गुणा करता है पायथन का लैम्ब्डा फ़ंक्शन:
DataFrame = DataFrame.transform (लैम्ब्डा y: y*3)
प्रिंट (डेटाफ़्रेम)
5. DataFrame.isnull
यह फ़ंक्शन एक बूलियन मान देता है और सभी पंक्तियों को चिह्नित करता है जिसमें शून्य मान होते हैं सत्य:
DataFrame.isnull ()
उपरोक्त कोड का परिणाम बड़े डेटासेट के लिए पढ़ना मुश्किल हो सकता है। तो आप का उपयोग कर सकते हैं isnull ()। योग () इसके बजाय कार्य करें। यह प्रत्येक कॉलम के लिए सभी अनुपलब्ध मानों का सारांश देता है:
DataFrame.isnull ()। योग ()
6. Dataframe.info
जानकारी () समारोह एक है आवश्यक पांडा ऑपरेशन. यह इसके बजाय प्रत्येक कॉलम के लिए गैर-अनुपलब्ध मानों का सारांश देता है:
DataFrame.info ()
7. डेटाफ़्रेम। वर्णन करें
वर्णन करना() फ़ंक्शन आपको डेटाफ़्रेम का सारांश आँकड़ा देता है:
डेटाफ़्रेम। वर्णन ()
8. DataFrame.replace
का उपयोग डेटाफ्रेम.बदलें () पंडों में विधि, आप चयनित पंक्तियों को अन्य मानों से बदल सकते हैं।
उदाहरण के लिए, अमान्य पंक्तियों को स्वैप करने के लिए नेन:
# सुनिश्चित करें कि आप इसके काम करने के लिए पिप इंस्टाल numpy करें
आयात सुन्न
आयात पांडा
# एक इनप्लेस कीवर्ड जोड़ना और इसे ट्रू पर सेट करना बदलाव को स्थायी बनाता है:
DataFrame.replace([invalid_1, अमान्य_2], numpy.nan, inplace=True)
प्रिंट (डेटाफ़्रेम)
9. DataFrame.fillna
यह फ़ंक्शन आपको रिक्त पंक्तियों को किसी विशेष मान से भरने देता है। आप सभी भर सकते हैं नेन उदाहरण के लिए माध्य मान वाले डेटासेट में पंक्तियाँ:
DataFrame.fillna (df.mean (), इनप्लेस = ट्रू)
प्रिंट (डेटाफ़्रेम)
आप कॉलम-विशिष्ट भी हो सकते हैं:
DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
प्रिंट (डेटाफ़्रेम)
10. DataFrame.dropna
ड्रॉपना () विधि शून्य मान वाली सभी पंक्तियों को हटा देती है:
DataFrame.dropna (इनप्लेस = ट्रू)
प्रिंट (डेटाफ़्रेम)
11. DataFrame.insert
आप पांडा का उपयोग कर सकते हैं ' सम्मिलित करें () डेटाफ़्रेम में एक नया कॉलम जोड़ने के लिए कार्य करता है। यह तीन खोजशब्दों को स्वीकार करता है, आम नाम, इसके डेटा की एक सूची, और इसकी स्थान, जो एक कॉलम इंडेक्स है।
यहां बताया गया है कि यह कैसे काम करता है:
DataFrame.insert (स्तंभ = 'सी', मान = [3, 4, 6, 7], स्थान = 0)
प्रिंट (डेटाफ़्रेम)
उपरोक्त कोड शून्य कॉलम इंडेक्स पर नया कॉलम सम्मिलित करता है (यह पहला कॉलम बन जाता है)।
12. DataFrame.loc
आप उपयोग कर सकते हैं एलओसी किसी विशेष सूचकांक में तत्वों को खोजने के लिए। उदाहरण के लिए, तीसरी पंक्ति में सभी आइटम देखने के लिए:
डेटाफ्रेम.लोक[2]
13. डेटाफ्रेम.पॉप
यह फ़ंक्शन आपको पांडा डेटाफ़्रेम से एक निर्दिष्ट कॉलम को निकालने देता है।
यह स्वीकार करता है a मद कीवर्ड, पॉप किए गए कॉलम को लौटाता है, और इसे बाकी डेटाफ़्रेम से अलग करता है:
DataFrame.pop (आइटम = 'कॉलम_नाम')
प्रिंट (डेटाफ़्रेम)
14. DataFrame.max, न्यूनतम
पांडा का उपयोग करके अधिकतम और न्यूनतम मान प्राप्त करना आसान है:
डेटाफ्रेम.मिन ()
उपरोक्त कोड प्रत्येक कॉलम के लिए न्यूनतम मान देता है। अधिकतम प्राप्त करने के लिए, प्रतिस्थापित करें मिनट साथ मैक्स.
15. DataFrame.join
शामिल हों () पांडा का कार्य आपको अलग-अलग कॉलम नामों के साथ डेटाफ़्रेम को मर्ज करने देता है। आप बाएँ, दाएँ, भीतरी या बाहरी जोड़ का उपयोग कर सकते हैं। डेटाफ़्रेम को दो अन्य लोगों के साथ बाएँ-जुड़ने के लिए:
#बाएं-छोटे वाले लंबे कॉलम में शामिल हों
newDataFrame = df1.join ([df_shorter2, df_shorter3], कैसे = 'बाएं')
प्रिंट (newDataFrame)
समान कॉलम नामों के साथ डेटाफ़्रेम में शामिल होने के लिए, आप बाईं या दाईं ओर प्रत्यय शामिल करके उनमें अंतर कर सकते हैं। इसे शामिल करके करें लसफिक्स या rsuffix कीवर्ड:
newDataFrame = df1.join ([df2, rsuffix = '_', कैसे = 'बाहरी')
प्रिंट (newDataFrame)
16. DataFrame.combine
जोड़ना() फ़ंक्शन दो डेटाफ़्रेम को मर्ज करने के लिए काम आता है जिसमें सेट मानदंड के आधार पर समान कॉलम नाम होते हैं। यह स्वीकार करता है समारोह खोजशब्द।
उदाहरण के लिए, केवल अधिकतम मानों के आधार पर समान कॉलम नामों वाले दो डेटाफ़्रेम को मर्ज करने के लिए:
newDataFrame = df.combine (df2, numpy.minimum)
प्रिंट (newDataFrame)
ध्यान दें: आप एक कस्टम चयन फ़ंक्शन को भी परिभाषित कर सकते हैं और सम्मिलित कर सकते हैं सुन्न.न्यूनतम.
17. DataFrame.astype
एस्टाइप () फ़ंक्शन किसी विशेष कॉलम या डेटाफ़्रेम के डेटा प्रकार को बदलता है।
उदाहरण के लिए, DataFrame के सभी मानों को स्ट्रिंग में बदलने के लिए:
DataFrame.astype (str)
18. DataFrame.sum
योग () पांडा में फ़ंक्शन प्रत्येक कॉलम में मानों का योग देता है:
DataFrame.sum ()
आप का उपयोग करके सभी मदों का संचयी योग भी पा सकते हैं कमसम ():
DataFrame.cumsum ()
19. DataFrame.drop
पांडा' बूंद() फ़ंक्शन डेटाफ़्रेम में विशिष्ट पंक्तियों या स्तंभों को हटा देता है। इसका उपयोग करने के लिए आपको कॉलम नाम या पंक्ति अनुक्रमणिका और अक्ष की आपूर्ति करनी होगी।
विशिष्ट कॉलम हटाने के लिए, उदाहरण के लिए:
df.ड्रॉप (कॉलम = ['कॉलम 1', 'कॉलम 2'], अक्ष = 0)
उदाहरण के लिए, अनुक्रमणिका 1, 3, और 4 पर पंक्तियों को छोड़ने के लिए:
df.ड्रॉप ([1, 3, 4], अक्ष = 0)
20. DataFrame.corr
पूर्णांक या फ्लोट कॉलम के बीच संबंध खोजना चाहते हैं? पांडा आपको इसका उपयोग करके प्राप्त करने में मदद कर सकते हैं गलत () समारोह:
DataFrame.corr ()
उपरोक्त कोड एक नया डेटाफ़्रेम देता है जिसमें सभी पूर्णांक या फ्लोट कॉलम के बीच सहसंबंध अनुक्रम होता है।
21. DataFrame.add
जोड़ें() फ़ंक्शन आपको DataFrame में प्रत्येक मान के लिए एक विशिष्ट संख्या जोड़ने देता है। यह डेटाफ़्रेम के माध्यम से पुनरावृति करके और प्रत्येक आइटम पर काम करके काम करता है।
सम्बंधित:पायथन में लूप्स का उपयोग कैसे करें
उदाहरण के लिए, पूर्णांक या फ़्लोट्स वाले विशिष्ट कॉलम में प्रत्येक मान में 20 जोड़ने के लिए:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
अतिरिक्त फ़ंक्शन की तरह, आप डेटाफ़्रेम या विशिष्ट कॉलम में प्रत्येक मान से एक संख्या घटा सकते हैं:
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
यह पंडों के अतिरिक्त कार्य का गुणन संस्करण है:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
इसी तरह, आप प्रत्येक डेटा बिंदु को एक कॉलम या डेटाफ़्रेम में एक विशिष्ट संख्या से विभाजित कर सकते हैं:
DataFrame['interger_column'].div (20)
25. DataFrame.std
का उपयोग एसटीडी () फ़ंक्शन, पांडा आपको डेटाफ़्रेम में प्रत्येक कॉलम के लिए मानक विचलन की गणना करने देता है। यह डेटासेट में प्रत्येक कॉलम के माध्यम से पुनरावृत्ति करके और प्रत्येक के लिए मानक विचलन की गणना करके काम करता है:
डेटाफ्रेम.एसटीडी ()
26. DataFrame.sort_values
आप किसी विशेष कॉलम के आधार पर मानों को आरोही या अवरोही क्रम में भी क्रमबद्ध कर सकते हैं। डेटाफ़्रेम को अवरोही क्रम में क्रमबद्ध करने के लिए, उदाहरण के लिए:
newDataFrame = DataFrame.sort_values (द्वारा = "colmun_name", अवरोही = सत्य)
27. DataFrame.melt
पिघल () पांडा में फ़ंक्शन डेटाफ़्रेम में कॉलम को अलग-अलग पंक्तियों में फ़्लिप करता है। यह डेटाफ़्रेम की शारीरिक रचना को उजागर करने जैसा है। तो यह आपको प्रत्येक कॉलम को निर्दिष्ट मान को स्पष्ट रूप से देखने देता है।
newDataFrame = DataFrame.melt ()
28. डेटाफ्रेम.गिनती
यह फ़ंक्शन प्रत्येक कॉलम में आइटम्स की कुल संख्या देता है:
डेटाफ्रेम.गिनती ()
29. DataFrame.query
पांडा' जिज्ञासा() आपको आइटम को उनके इंडेक्स नंबर का उपयोग करके कॉल करने देता है। तीसरी पंक्ति में आइटम प्राप्त करने के लिए, उदाहरण के लिए:
डेटाफ्रेम.क्वेरी ('4') # चौथे इंडेक्स पर क्वेरी को कॉल करें
30. DataFrame.where
कहाँ पे() फ़ंक्शन एक पांडा क्वेरी है जो एक कॉलम में विशिष्ट मान प्राप्त करने के लिए एक शर्त स्वीकार करता है। उदाहरण के लिए, 30 से कम उम्र के सभी लोगों को an. से प्राप्त करने के लिए उम्र स्तंभ:
DataFrame.where (DataFrame['Age'] <30)
उपरोक्त कोड एक डेटाफ़्रेम को आउटपुट करता है जिसमें 30 से कम उम्र के सभी आयु होते हैं लेकिन असाइन करते हैं नेन उन पंक्तियों के लिए जो शर्त को पूरा नहीं करती हैं।
पांडा के साथ एक प्रो की तरह डेटा संभालें
पांडा पायथन के साथ छोटे से बड़े पैमाने पर डेटासेट को संभालने के लिए कार्यों और विधियों का खजाना है। पुस्तकालय विश्लेषण या मशीन सीखने के लिए डेटा को साफ करने, मान्य करने और तैयार करने के लिए भी काम आता है।
इसमें महारत हासिल करने के लिए समय निकालना निश्चित रूप से एक डेटा वैज्ञानिक के रूप में आपके जीवन को आसान बनाता है, और यह प्रयास के लायक है। तो बेझिझक उन सभी कार्यों को उठाएं जिन्हें आप संभाल सकते हैं।
पायथन मानक पुस्तकालय में आपके प्रोग्रामिंग कार्यों में मदद करने के लिए कई कार्य हैं। सबसे उपयोगी के बारे में जानें और अधिक मजबूत कोड बनाएं।
आगे पढ़िए
- प्रोग्रामिंग
- अजगर
- प्रोग्रामिंग
- डेटाबेस
Idowu कुछ भी स्मार्ट तकनीक और उत्पादकता के बारे में भावुक है। अपने खाली समय में, वह कोडिंग के साथ खेलता है और जब वह ऊब जाता है तो शतरंज की बिसात पर चला जाता है, लेकिन वह कभी-कभार दिनचर्या से अलग होना भी पसंद करता है। लोगों को आधुनिक तकनीक के बारे में बताने का उनका जुनून उन्हें और अधिक लिखने के लिए प्रेरित करता है।
हमारे न्यूज़लेटर की सदस्यता लें
तकनीकी युक्तियों, समीक्षाओं, निःशुल्क ई-पुस्तकों और अनन्य सौदों के लिए हमारे न्यूज़लेटर से जुड़ें!
सब्सक्राइब करने के लिए यहां क्लिक करें