क्या यह दावा करना सही है कि नई पोलर्स लाइब्रेरी कई बेंचमार्क में पंडों को पार कर रही है, या पंडों की लाइब्रेरी अभी भी प्रमुख पसंद है?
डेटा विश्लेषण कार्य करते समय, संभावना है कि आपका सामना पांडा से हुआ हो। यह लंबे समय से डेटा विश्लेषण में सबसे प्रमुख पुस्तकालय रहा है। दूसरी ओर पोलर्स एक अपेक्षाकृत नया पुस्तकालय है जो उच्च प्रदर्शन और स्मृति दक्षता का दावा करता है। लेकिन, कौन सा बेहतर है?
यहां, आप सामान्य डेटा हेरफेर कार्यों की एक श्रृंखला में पंडों और पोलर्स के बीच प्रदर्शन की तुलना देखेंगे।
मापने का प्रदर्शन: मेट्रिक्स और बेंचमार्क डेटासेट
यह तुलना पंडों और की क्षमता को ध्यान में रखेगी ध्रुवीय पुस्तकालयों से ब्लैक फ्राइडे सेल डेटासेट में हेरफेर करने के लिए कागल. इस डेटासेट में डेटा की 550,068 पंक्तियाँ हैं। इसमें ग्राहक जनसांख्यिकी, खरीद इतिहास और उत्पाद विवरण के बारे में जानकारी शामिल है।
निष्पक्ष प्रदर्शन माप सुनिश्चित करने के लिए, तुलना निष्पादन समय का उपयोग प्रत्येक कार्य पर एक मानक प्रदर्शन मीट्रिक के रूप में करेगी। प्रत्येक तुलना कार्य के लिए कोड चलाने का प्लेटफॉर्म Google Colab होगा।
पंडों और पोलर्स पुस्तकालयों की तुलना करने वाला पूर्ण स्रोत कोड निम्न में उपलब्ध है गिटहब रिपॉजिटरी.
CSV फ़ाइल से डेटा पढ़ना
यह कार्य प्रत्येक लाइब्रेरी द्वारा ब्लैक फ्राइडे सेल डेटासेट से डेटा पढ़ने में लगने वाले समय की तुलना करता है। डाटासेट में है सीएसवी प्रारूप. पांडा और पोलर इस कार्य के लिए समान कार्यक्षमता प्रदान करते हैं।
ब्लैक फ्राइडे सेल डेटासेट में पोलर्स को डेटा पढ़ने में पंडों को दोगुना समय लगता है।
कॉलम का चयन
यह कार्य प्रत्येक लाइब्रेरी को डेटासेट से कॉलम चुनने में लगने वाले समय को मापता है। इसमें चयन करना शामिल है उपयोगकर्ता पहचान और खरीदना कॉलम।
पंडों की तुलना में पोलर्स को डेटासेट से कॉलम चुनने में काफी कम समय लगता है।
फ़िल्टरिंग पंक्तियाँ
यह कार्य फ़िल्टरिंग पंक्तियों में प्रत्येक लाइब्रेरी के प्रदर्शन की तुलना करता है जहाँ लिंग स्तंभ डेटासेट से F है।
पंडों की तुलना में ध्रुवों को पंक्तियों को छानने में बहुत कम समय लगता है।
समूहीकरण और एकत्रीकरण डेटा
इस कार्य में डेटा को एक या एक से अधिक स्तंभों में समूहित करना शामिल है। फिर, समूहों पर कुछ एकत्रीकरण कार्य करता है। यह प्रत्येक पुस्तकालय द्वारा डेटा को समूहीकृत करने में लगने वाले समय को मापता है लिंग कॉलम और प्रत्येक समूह के लिए औसत खरीद राशि की गणना करें।
फिर से, पोलर्स ने पंडों को मात दी। लेकिन मार्जिन पंक्तियों को फ़िल्टर करने जितना बड़ा नहीं है।
डेटा के लिए कार्य लागू करना
इस कार्य में फ़ंक्शन को एक या अधिक कॉलम में लागू करना शामिल है। यह प्रत्येक पुस्तकालय को गुणा करने में लगने वाले समय को मापता है खरीदना कॉलम 2.
आप पोलर्स बार को मुश्किल से देख सकते हैं। ध्रुवीय एक बार फिर पंडों से बेहतर प्रदर्शन करते हैं।
डेटा मर्ज करना
यह कार्य शामिल है दो या दो से अधिक DataFrames को मर्ज करना इस आधार पर कि एक या अधिक सामान्य स्तंभ मौजूद हैं। यह प्रत्येक पुस्तकालय को मर्ज करने में लगने वाले समय को मापता है उपयोगकर्ता पहचान और खरीदना दो अलग-अलग डेटाफ़्रेम से कॉलम।
इस कार्य को पूरा करने में दोनों पुस्तकालयों को कुछ समय लगता है। लेकिन पोलर्स को डेटा मर्ज करने में पंडों से लगभग आधा समय लगता है।
पोलर पंडों से बेहतर प्रदर्शन करने में सक्षम क्यों हैं?
उपरोक्त सभी डेटा हेरफेर कार्यों में, पोलर्स पंडों से बेहतर प्रदर्शन करते हैं। कई कारण हैं कि क्यों पोलर निष्पादन समय में पंडों से बेहतर प्रदर्शन कर सकते हैं।
- मेमोरी ऑप्टिमाइज़ेशन: पोलर्स रस्ट का उपयोग करता है, एक सिस्टम प्रोग्रामिंग भाषा जो मेमोरी उपयोग को अनुकूलित करती है। यह पोलर्स को मेमोरी आवंटन और डीलोकेशन पर खर्च होने वाले समय को कम करने की अनुमति देता है। इससे निष्पादन का समय तेज हो जाता है।
- SIMD (सिंगल इंस्ट्रक्शन मल्टीपल डेटा) ऑपरेशंस: पोलर्स डेटा पर संगणना करने के लिए SIMD संचालन का उपयोग करता है। इसका मतलब है कि यह एक ही निर्देश का उपयोग एक साथ कई डेटा तत्वों पर एक ही ऑपरेशन करने के लिए कर सकता है। यह पोलर्स को पंडों की तुलना में बहुत तेजी से संचालन करने की अनुमति देता है, जो एकल-थ्रेडेड दृष्टिकोण का उपयोग करते हैं।
- आलसी मूल्यांकन: पोलर्स संचालन के निष्पादन में देरी करने के लिए आलसी मूल्यांकन का उपयोग करता है जब तक कि इसकी आवश्यकता न हो। यह उस समय को कम करता है जब पोलर्स अनावश्यक संचालन पर खर्च करता है और प्रदर्शन में सुधार करता है।
अपने डेटा विज्ञान कौशल का विस्तार करें
वहाँ कई पायथन पुस्तकालय हैं जो डेटा विज्ञान में आपकी सहायता कर सकते हैं। पांडा और पोलर बस एक छोटा सा अंश हैं। अपने प्रोग्राम के प्रदर्शन को बेहतर बनाने के लिए, आपको अपने आप को अधिक डेटा साइंस लाइब्रेरी से परिचित कराना चाहिए। इससे आपको तुलना करने और चुनने में मदद मिलेगी कि कौन सी लाइब्रेरी आपके उपयोग के मामले में सबसे उपयुक्त है।