डेटासेट का विश्लेषण करने के लिए, आपको सबसे पहले डेटा को समझना होगा। कभी-कभी, हो सकता है कि आपको किसी डेटासेट का फोरहैंड ज्ञान न हो, जो आपको इसका अधिकतम लाभ उठाने से रोकता हो। एक डेटा विश्लेषक के रूप में, आप गहन विश्लेषण से पहले अपने डेटासेट का ज्ञान प्राप्त करने के लिए खोजपूर्ण डेटा विश्लेषण (ईडीए) का उपयोग कर सकते हैं।

खोजपूर्ण डेटा विश्लेषण (ईडीए) सार्थक अंतर्दृष्टि प्राप्त करने के लिए डेटासेट की जांच करता है। ईडीए करने की प्रक्रिया में डेटासेट की संरचना और सामग्री के बारे में जानकारी पूछताछ शामिल है।

गोटा पैकेज स्थापित करना

गोटा पैकेज इसके लिए सबसे लोकप्रिय है डेटा विश्लेषण गो में; यह जैसा है पायथन पांडस पैकेज लेकिन गो के लिए। गोटा पैकेज में डेटासेट का विश्लेषण करने और JSON, CSV और HTML प्रारूपों को पढ़ने के लिए कई तरीके हैं।

इस कमांड को अपने टर्मिनल पर उस डायरेक्टरी में चलाएँ जहाँ आपने एक गो मॉड्यूल फ़ाइल को इनिशियलाइज़ किया है:

जाओ -यू github.com/ प्राप्त करेंजाओ-गोटा/गोटा

कमांड गोटा को स्थानीय निर्देशिका में स्थापित करेगा, आपके लिए इसका उपयोग करने के लिए पैकेज को आयात करने के लिए तैयार है।

instagram viewer

पंडों की तरह, गोटा श्रृंखला और डेटाफ्रेम संचालन का समर्थन करता है। गोटा पैकेज में दो उप-पैकेज हैं: श्रृंखला, और डेटाफ्रेम पैकेज। आप अपनी आवश्यकताओं के आधार पर एक या दोनों का आयात कर सकते हैं।

आयात (
"github.com/जाओ-गोटा/गोटा/श्रृंखला"
"github.com/जाओ-गोटा/गोटा/डेटाफ्रेम"
)

गोटा पैकेज का उपयोग करके डेटासेट पढ़ना

आप अपनी पसंद की किसी भी CSV फ़ाइल का उपयोग कर सकते हैं, लेकिन निम्न उदाहरण इसके परिणाम दिखाते हैं एक कागल डेटासेट, लैपटॉप मूल्य डेटा युक्त।

गोटा आपको सीएसवी, जेएसओएन और एचटीएमएल फ़ाइल स्वरूपों का उपयोग करके डेटाफ्रेम बनाने के लिए पढ़ने देता है पढ़ेंसीएसवी, पढ़ेंJSON, तथा पढ़ेंएचटीएमएल तरीके। यहां बताया गया है कि आप CSV फ़ाइल को डेटाफ़्रेम ऑब्जेक्ट में कैसे लोड करते हैं:

फ़ाइल, त्रुटि: = os. ओपन ("/पथ/से/csv-file.csv")

यदि गलती!= शून्य {
एफएमटी Println ("फ़ाइल खुली त्रुटि")
}

डेटाफ़्रेम: = डेटाफ़्रेम। रीडसीएसवी (फ़ाइल)
एफएमटी प्रिंट्लन (डेटाफ्रेम)

आप का उपयोग कर सकते हैं खुला हुआ की विधि ओएस एक CSV फ़ाइल खोलने के लिए पैकेज। ReadCSV विधि फ़ाइल ऑब्जेक्ट को पढ़ती है और डेटाफ़्रेम ऑब्जेक्ट लौटाती है।

जब आप इस ऑब्जेक्ट को प्रिंट करते हैं, तो आउटपुट एक सारणीबद्ध प्रारूप में होता है। आप गोटा द्वारा प्रदान की जाने वाली विभिन्न विधियों का उपयोग करके डेटाफ़्रेम ऑब्जेक्ट में और हेरफेर कर सकते हैं।

ऑब्जेक्ट केवल कुछ स्तंभों को प्रिंट करेगा यदि किसी डेटासेट में एक निर्धारित मान से अधिक है।

डेटासेट का आयाम प्राप्त करना

डेटाफ़्रेम के आयाम इसमें शामिल पंक्तियों और स्तंभों की संख्या हैं। आप इन आयामों का उपयोग करके प्राप्त कर सकते हैं मंद डेटाफ्रेम ऑब्जेक्ट की विधि।

वर पंक्तियाँ, स्तंभ = डेटाफ़्रेम. डिम्स ()

केवल अन्य आयाम लाने के लिए किसी एक चर को अंडरस्कोर से बदलें। आप अलग-अलग पंक्तियों और स्तंभों की संख्या का उपयोग करके भी पूछ सकते हैं नोरो तथा एनकोलो तरीके।

वर पंक्तियाँ = डेटाफ़्रेम. नोरो ()
वर कॉलम = डेटाफ्रेम। एनकोल ()

कॉलम के डेटा प्रकार प्राप्त करना

किसी डेटासेट का विश्लेषण करने के लिए आपको उसके कॉलम में समग्र डेटा प्रकारों को जानना होगा। आप इनका उपयोग करके इन्हें प्राप्त कर सकते हैं प्रकार आपके डेटाफ्रेम ऑब्जेक्ट की विधि:

वर प्रकार = डेटाफ्रेम। प्रकार ()
एफएमटी प्रिंट्लन (प्रकार)

प्रकार विधि कॉलम के डेटा प्रकारों वाला एक टुकड़ा लौटाती है:

स्तम्भ के नाम लाये जा रहे हैं

संचालन के लिए विशिष्ट कॉलम चुनने के लिए आपको कॉलम नामों की आवश्यकता होगी। आप का उपयोग कर सकते हैं नाम उन्हें लाने की विधि।

वर कॉलमनाम: = डेटाफ्रेम। नाम ()
एफएमटी Println (स्तंभ नाम)

नाम विधि कॉलम नामों का एक टुकड़ा देता है।

गुम मूल्यों की जांच

आपके पास एक डेटासेट हो सकता है जिसमें शून्य या गैर-संख्यात्मक मान हों। आप का उपयोग करके ऐसे मूल्यों की जांच कर सकते हैं हसनैन तथा इसनानी एक श्रृंखला वस्तु के तरीके:

एकॉल: = डेटाफ्रेम। कर्नल ("डिस्प्ले_साइज़")
वर हैनल = aCol. हसनैन ()
वर isNotNumber = aCol. आईएसएनएएन ()

हसनैन जाँचता है कि क्या किसी कॉलम में अशक्त तत्व हैं। IsNaN बूलियन का एक टुकड़ा देता है जो दर्शाता है कि कॉलम में प्रत्येक मान एक संख्या है या नहीं।

वर्णनात्मक सांख्यिकीय विश्लेषण करना

वर्णनात्मक सांख्यिकीय विश्लेषण आपको संख्यात्मक स्तंभों के वितरण को समझने में मदद करता है। का उपयोग करते हुए वर्णन करना विधि, आप अपने डेटासेट का एक वर्णनात्मक सांख्यिकीय विश्लेषण उत्पन्न कर सकते हैं:

विवरण: = डेटाफ्रेम। वर्णन करना()
एफएमटी Println (विवरण)

वर्णन विधि किसी डेटासेट में माध्य, मानक विचलन और स्तंभों के अधिकतम मान जैसे मीट्रिक लौटाती है। यह इन्हें एक सारणीबद्ध प्रारूप में सारांशित करता है।

आप विशिष्ट भी हो सकते हैं और किसी विशेष कॉलम का चयन करके, फिर अपनी इच्छित मीट्रिक के लिए क्वेरी करके कॉलम और मीट्रिक पर ध्यान केंद्रित कर सकते हैं। आपको पहले एक विशिष्ट कॉलम का प्रतिनिधित्व करने वाली श्रृंखला प्राप्त करनी चाहिए, फिर इसके तरीकों का उपयोग करना चाहिए:

एकॉल: = डेटाफ्रेम। कर्नल ("डिस्प्ले_साइज़")
वर माध्य = ए.सी.एल. अर्थ()
वर मंझला = aCol. मध्य ()
वर न्यूनतम = ए.सी.एल. न्यूनतम ()
वर मानक विचलन = aCol. मानक विचलन()
वर अधिकतम = ए.सी.एल. अधिकतम ()
वर क्वांटाइल 25 = aCol. क्वांटाइल (25.0)

ये विधियां वर्णनात्मक सांख्यिकीय विश्लेषण के परिणामों को प्रतिबिंबित करती हैं जो वर्णन करता है।

एक कॉलम में तत्वों को लाना

आप जिन अंतिम कार्यों को करना चाहते हैं उनमें से एक सामान्य अवलोकन के लिए कॉलम में मानों की जांच करना है। आप का उपयोग कर सकते हैं अभिलेख कॉलम के मूल्यों को देखने की विधि।

एकॉल: = डेटाफ्रेम। कर्नल ("ब्रांड")
एफएमटी प्रिंट्लन (ए.सी.एल. रिकॉर्ड्स ())

यह विधि आपके चयनित कॉलम में मानों वाले स्ट्रिंग्स का एक टुकड़ा लौटाती है:

किसी फ़ाइल में गोटा डेटाफ़्रेम निर्यात करना

यदि आप आगे जाकर संपूर्ण डेटा विश्लेषण के लिए गोटा पैकेज का उपयोग करना चुनते हैं, तो आपको डेटा को फ़ाइलों में सहेजना होगा। आप का उपयोग कर सकते हैं राइटसीएसवी तथा लिखेंJSON फ़ाइलों को निर्यात करने के लिए डेटाफ़्रेम के तरीके। विधियाँ एक फ़ाइल में लेती हैं जिसे आप का उपयोग करके बनाएंगे ओएस पैकेज का सृजन करना तरीका।

यहां बताया गया है कि आप गोटा पैकेज का उपयोग करके डेटाफ्रेम कैसे निर्यात कर सकते हैं।

डेटाफ़्रेम: = डेटाफ़्रेम। रीडसीएसवी (फ़ाइल)
आउटपुटफाइल, त्रुटि: = os. बनाएं ("आउटपुट। सीएसवी")

यदि गलती!= शून्य {
लकड़ी का लट्ठा। घातक (गलती)
}

त्रुटि = डेटाफ्रेम। राइटसीएसवी (आउटपुटफाइल)

यदि गलती!= शून्य {
लकड़ी का लट्ठा। Fatalln ("फ़ाइल में डेटाफ़्रेम सामग्री लिखने में त्रुटि हुई")
}

डेटा ढांचा वेरिएबल डेटाफ्रेम का एक प्रतिनिधित्व है। जब आप का उपयोग करते हैं सृजन करना की विधि ओएस पैकेज, यह निर्दिष्ट नाम के साथ एक नई, खाली फ़ाइल बनाता है और फ़ाइल लौटाता है। WriteCSV विधि फ़ाइल उदाहरण में लेती है और एक त्रुटि लौटाती है या शून्य अगर कोई त्रुटि नहीं है।

खोजपूर्ण डेटा विश्लेषण महत्वपूर्ण है

डेटा विश्लेषकों और मशीन लर्निंग विशेषज्ञों के लिए डेटा और डेटासेट की समझ आवश्यक है। यह उनके कार्य चक्र में एक महत्वपूर्ण ऑपरेशन है, और खोजपूर्ण डेटा विश्लेषण उन तकनीकों में से एक है जिसका उपयोग वे इसे प्राप्त करने के लिए करते हैं।

गोटा पैकेज में और भी बहुत कुछ है। आप इसका उपयोग विभिन्न डेटा कुश्ती कार्यों के लिए उसी तरह कर सकते हैं जैसे आप डेटा विश्लेषण के लिए पायथन पांडा लाइब्रेरी का उपयोग करते हैं। हालाँकि, गोटा पंडों की तरह अधिक कार्यक्षमता का समर्थन नहीं करता है।