डेटा विश्लेषण कार्यों को करने के लिए कृत्रिम बुद्धिमत्ता और बड़े भाषा मॉडल की शक्ति का लाभ उठाने के लिए PandasAI Python लाइब्रेरी का उपयोग करें।

पांडा डेटासेट और डेटाफ़्रेम में हेरफेर करने के लिए सबसे प्रमुख लाइब्रेरी है। यह लंबे समय से आदर्श रहा है। लेकिन कृत्रिम बुद्धिमत्ता में प्रगति के साथ, PandasAI नामक एक नई ओपन-सोर्स लाइब्रेरी विकसित की गई है जो Pandas में जेनरेटिव AI क्षमताओं को जोड़ती है।

PandasAI पांडा का स्थान नहीं लेता है। इसके बजाय, यह अपनी जेनरेटिव एआई क्षमताएं देता है। इस तरह, आप PandasAI के साथ चैट करके डेटा विश्लेषण कर सकते हैं। इसके बाद यह पृष्ठभूमि में क्या हो रहा है उसका सारांश देता है और आपको आपकी क्वेरी का आउटपुट प्रदान करता है।

पांडाएआई स्थापित करना

पांडासाई PyPI (पायथन पैकेज इंडेक्स) के माध्यम से उपलब्ध है। एक नया आभासी वातावरण बनाएं यदि आप स्थानीय आईडीई का उपयोग कर रहे हैं। तब पिप पैकेज मैनेजर का उपयोग करें इसे स्थापित करने के लिए.

पिप इंस्टाल पांडासाई

यदि आप Google Colab का उपयोग कर रहे हैं तो आपको नीचे दिखाए गए समान निर्भरता संघर्ष त्रुटि का सामना करना पड़ सकता है।

IPython संस्करण को डाउनग्रेड न करें. बस अपना रनटाइम पुनरारंभ करें और कोड ब्लॉक फिर से चलाएं। इससे समस्या का समाधान हो जायेगा.

पूर्ण स्रोत कोड a में उपलब्ध है गिटहब रिपॉजिटरी.

नमूना डेटासेट को समझना

आप PandasAI के साथ जिस नमूना डेटासेट में हेरफेर करेंगे, वह कागल का कैलिफ़ोर्निया हाउसिंग प्राइस डेटासेट है। इस डेटासेट में 1990 की कैलिफ़ोर्निया जनगणना से आवास के बारे में जानकारी शामिल है। इसमें दस कॉलम हैं जो इन घरों के बारे में आंकड़े प्रदान करते हैं। इस डेटासेट के बारे में अधिक जानने में आपकी सहायता के लिए डेटा कार्ड यहां उपलब्ध है कागल. नीचे डेटासेट की पहली पाँच पंक्तियाँ हैं।

प्रत्येक स्तंभ एक घर के एकल आँकड़े का प्रतिनिधित्व करता है।

PandasAI को बड़े भाषा मॉडल से जोड़ना

PandasAI को a से जोड़ने के लिए बड़े भाषा मॉडल (एलएलएम) OpenAI की तरह, आपको इसकी API कुंजी तक पहुंच की आवश्यकता है। एक प्राप्त करने के लिए, आगे बढ़ें ओपनएआई प्लेटफॉर्म. फिर अपने अकाउंट में लॉग इन करें। चुनना एपीआई आगे दिखाई देने वाले विकल्प पृष्ठ के अंतर्गत।

इसके बाद अपनी प्रोफाइल पर क्लिक करें और सेलेक्ट करें एपीआई कुंजियाँ देखें विकल्प। अगले दिखाई देने वाले पेज पर क्लिक करें नई गुप्त कुंजी बनाएं बटन। अंत में, अपनी एपीआई कुंजी को नाम दें।

OpenAI आपकी API कुंजी उत्पन्न करेगा. इसे कॉपी करें क्योंकि PandasAI को OpenAI से कनेक्ट करते समय आपको इसकी आवश्यकता होगी। सुनिश्चित करें कि आप कुंजी को गुप्त रखें क्योंकि इसकी पहुंच वाला कोई भी व्यक्ति आपकी ओर से OpenAI को कॉल कर सकता है। फिर OpenAI आपके खाते से कॉल के लिए शुल्क लेगा।

अब जब आपके पास एपीआई कुंजी है, तो एक नई पायथन स्क्रिप्ट बनाएं और नीचे दिए गए कोड को पेस्ट करें। आपको इस कोड को बदलने की आवश्यकता नहीं होगी क्योंकि अधिकांश समय आप इसी पर निर्माण करते रहेंगे।

आयात पांडा जैसा पी.डी.
से पांडासाई आयात पांडासाई

# अपने डेटासेट या डेटाफ़्रेम से बदलें
डीएफ = पीडी.रीड_सीएसवी("/content/housing.csv")

# एलएलएम इंस्टेंट करें
से pandasai.llm.openai आयात ओपनएआई
एलएलएम = ओपनएआई(api_token="आपका एपीआई टोकन")

पांडा_एआई = पांडाएआई(एलएलएम)

उपरोक्त कोड PandasAI और Pandas दोनों को आयात करता है। इसके बाद यह एक डेटासेट पढ़ता है। अंत में, यह OpenAI LLM को इंस्टेंटियेट करता है।

अब आप अपने डेटा के साथ बातचीत करने के लिए तैयार हैं।

PandasAI का उपयोग करके सरल कार्य करना

अपने डेटा को क्वेरी करने के लिए, अपने डेटाफ़्रेम और अपने प्रॉम्प्ट को PandasAI क्लास के उदाहरण पर पास करें। अपने डेटासेट की पहली पाँच पंक्तियों को प्रिंट करके प्रारंभ करें।

पांडा_एआई (डीएफ, प्रॉम्प्ट ='डेटासेट की पहली पाँच पंक्तियाँ क्या हैं?')

उपरोक्त प्रॉम्प्ट का आउटपुट इस प्रकार है:

यह आउटपुट पहले के डेटासेट अवलोकन के समान है। इससे पता चलता है कि PandasAI सही परिणाम देता है और विश्वसनीय है।

फिर, अपने डेटासेट में मौजूद कॉलमों की संख्या जांचें।

पांडा_एआई (डीएफ, प्रॉम्प्ट ='डेटासेट में कितने कॉलम हैं? ')

यह 10 लौटाता है जो कैलिफ़ोर्निया हाउसिंग डेटासेट में कॉलम की सही संख्या है।

जाँच करना कि डेटासेट में गुम मान हैं या नहीं।

पांडा_एआई (डीएफ, प्रॉम्प्ट ='क्या डेटासेट में कोई गुम मान हैं?')

PandasAI लौटाता है कि कुल_बेडरूम कॉलम में 207 लुप्त मान हैं, जो फिर से सही है।

बहुत सारे सरल कार्य हैं जिन्हें आप PandasAI का उपयोग करके प्राप्त कर सकते हैं, आप उपरोक्त तक ही सीमित नहीं हैं।

PandasAI का उपयोग करके जटिल क्वेरी निष्पादित करना

PandasAI केवल सरल कार्यों का समर्थन नहीं करता है। आप इसका उपयोग डेटासेट पर जटिल प्रश्नों को पूरा करने के लिए भी कर सकते हैं। उदाहरण के लिए, आवास डेटासेट में, यदि आप किसी पर स्थित घरों की संख्या निर्धारित करना चाहते हैं द्वीप, जिसका मूल्य 100,000 डॉलर से अधिक है, और 10 से अधिक कमरे हैं, आप संकेत का उपयोग कर सकते हैं नीचे।

पांडा_एआई (डीएफ, प्रॉम्प्ट = "कितने मकानों का मूल्य 100000 से अधिक है,"
"क्या आप एक द्वीप पर हैं और कुल शयनकक्ष 10 से अधिक हैं?")

सही आउटपुट पांच है. यह वही परिणाम है जो PandasAI आउटपुट करता है।

जटिल प्रश्नों को लिखने और डीबग करने में डेटा विश्लेषक को कुछ समय लग सकता है। उपरोक्त संकेत में एक ही कार्य को पूरा करने के लिए प्राकृतिक भाषा की केवल दो पंक्तियों की आवश्यकता होती है। आपको बस यह ध्यान में रखना होगा कि आप क्या हासिल करना चाहते हैं, और पांडाएआई बाकी का ध्यान रखेगा।

PandasAI का उपयोग करके चार्ट बनाना

चार्ट किसी भी डेटा विश्लेषण प्रक्रिया का एक महत्वपूर्ण हिस्सा हैं। यह डेटा विश्लेषकों को मानव-अनुकूल तरीके से डेटा की कल्पना करने में मदद करता है। PandasAI में एक चार्ट ड्राइंग सुविधा भी है। आपको बस डेटाफ्रेम और निर्देश पास करना होगा।

डेटासेट में प्रत्येक कॉलम के लिए एक हिस्टोग्राम बनाकर प्रारंभ करें। इससे आपको चरों के वितरण की कल्पना करने में मदद मिलेगी।

पांडा_एआई (डीएफ, प्रॉम्प्ट = "डेटासेट में प्रत्येक कॉलम के लिए एक हिस्टोग्राम प्लॉट करें")

आउटपुट इस प्रकार है:

PandasAI प्रॉम्प्ट में उनके नाम दर्ज किए बिना सभी स्तंभों का हिस्टोग्राम बनाने में सक्षम था।

PandasAI आपको स्पष्ट रूप से बताए बिना भी चार्ट बना सकता है कि किस चार्ट का उपयोग करना है। उदाहरण के लिए, आप हाउसिंग डेटासेट में डेटा के सहसंबंध का पता लगाना चाह सकते हैं। इसे प्राप्त करने के लिए आप निम्नानुसार एक संकेत पारित कर सकते हैं:

पांडा_एआई (डीएफ, प्रॉम्प्ट = "डेटासेट में सहसंबंध प्लॉट करें")

PandasAI एक सहसंबंध मैट्रिक्स प्लॉट करता है जैसा कि नीचे दिखाया गया है:

लाइब्रेरी एक हीटमैप चुनती है और एक सहसंबंध मैट्रिक्स प्लॉट करती है।

PandasAI इंस्टेंस में एकाधिक डेटाफ़्रेम पास करना

एकाधिक डेटाफ़्रेम के साथ काम करना मुश्किल हो सकता है। विशेषकर ऐसे व्यक्ति के लिए जो डेटा विश्लेषण में नया है। PandasAI इस अंतर को पाटता है क्योंकि आपको बस दोनों डेटाफ्रेम को पास करना है और डेटा में हेरफेर करने के लिए संकेतों का उपयोग करना शुरू करना है।

पांडा का उपयोग करके दो डेटाफ़्रेम बनाएं।

कर्मचारी_डेटा = {
'कर्मचारी आयडी': [1, 2, 3, 4, 5],
'नाम': ['जॉन', 'एम्मा', 'लियाम', 'ओलिविया', 'विलियम'],
'विभाग': ['एचआर', 'बिक्री', 'यह', 'विपणन', 'वित्त']
}

वेतन_डेटा = {
'कर्मचारी आयडी': [1, 2, 3, 4, 5],
'वेतन': [5000, 6000, 4500, 7000, 5500]
}

कर्मचारी_डीएफ = पीडी. डेटाफ़्रेम (कर्मचारी_डेटा)
वेतन_डीएफ = पीडी. डेटाफ़्रेम (वेतन_डेटा)

आप PandasAI से एक ऐसा प्रश्न पूछ सकते हैं जो दोनों डेटाफ़्रेमों पर लागू होता है। आपको केवल दोनों डेटाफ़्रेम को PandasAI इंस्टेंस में पास करना होगा।

पांडा_एआई([कर्मचारी_डीएफ, वेतन_डीएफ], "किस कर्मचारी का वेतन सबसे अधिक है?")

यह लौट आता है ओलिविया जो फिर से सही उत्तर है।

डेटा विश्लेषण करना कभी इतना आसान नहीं रहा, PandasAI आपको अपने डेटा से चैट करने और उसका आसानी से विश्लेषण करने की सुविधा देता है।

उस प्रौद्योगिकी को समझना जो PandasAI को शक्ति प्रदान करती है

PandasAI डेटा विश्लेषण की प्रक्रिया को सरल बनाता है जिससे डेटा विश्लेषकों का काफी समय बचता है। लेकिन यह पृष्ठभूमि में जो हो रहा है उसे अमूर्त कर देता है। आपको जेनरेटिव एआई से परिचित होने की आवश्यकता है ताकि आप यह जान सकें कि पांडाएआई हुड के तहत कैसे काम कर रहा है। इससे आपको जेनरेटिव एआई डोमेन में नवीनतम नवाचारों से जुड़े रहने में भी मदद मिलेगी।