आप जैसे पाठक MUO का समर्थन करने में मदद करते हैं। जब आप हमारी साइट पर लिंक का उपयोग करके खरीदारी करते हैं, तो हम संबद्ध कमीशन अर्जित कर सकते हैं।
HTML को स्क्रैप करना फ़िडली हो सकता है, इसलिए सुनिश्चित करें कि आप इस प्रक्रिया को थोड़े से पायथन अभ्यास के साथ समझते हैं।
ट्विटर अब तक मौजूद सबसे प्रभावशाली सोशल मीडिया प्लेटफॉर्म में से एक है। शीर्ष राजनेताओं, मशहूर हस्तियों और सीईओ सहित लाखों लोग प्रतिदिन अपने विचार साझा करने के लिए मंच का उपयोग करते हैं।
ट्रेंडिंग टैब रीयल-टाइम समाचार और सोशल मीडिया भावनाओं को खोजने के लिए सबसे अच्छे स्थानों में से एक है। आप इस डेटा का विश्लेषण कर सकते हैं और इसका उपयोग ब्रांड विज्ञापनों की योजना बनाने, अभियान चलाने और तहों द्वारा बिक्री बढ़ाने के लिए कर सकते हैं। लेकिन आप ट्विटर पर शीर्ष दस ट्रेंडिंग हैशटैग कैसे प्राप्त कर सकते हैं?
एल्गोरिथम निर्माण प्रक्रिया
किसी भी प्रोग्राम के निर्माण के लिए पहला कदम ट्विटर स्क्रैपर बनाने के लिए आवश्यक कदमों को नोट करना और समझना है। वे हैं:
- गूगल क्रोम खोलें।
- ट्विटर के ट्रेंडिंग पेज पर जाएं।
- हैशटैग और उनके संबंधित पेज लिंक को इकट्ठा करें।
- डेटा को स्प्रेडशीट में सेव करें।
यह समस्या कथन के एल्गोरिथम के रूप में कार्य करता है।
ट्विटर वेबपेज को समझना
इससे पहले कि आप इसे निकाल सकें, आपको यह जानना होगा कि कोई वेब पेज अपने डेटा को कैसे चिह्नित करता है। अगर आपको इसकी अच्छी समझ है तो यह बहुत मदद करता है HTML की मूल बातें और सीएसएस।
ट्विटर एक ट्रेंडिंग हैशटैग और उसके URL का प्रतिनिधित्व कैसे करता है, यह जानने के लिए इन चरणों का पालन करें:
- मिलने जाना ट्विटर का ट्रेंडिंग पेज. आप नेविगेट भी कर सकते हैं Twitter.com → अन्वेषण करना → रुझान इसे देखने के लिए।
- मुख्य स्तंभ का निरीक्षण करें क्रोम देव उपकरण का उपयोग करना. के लिए जाओ मेनू (3 बिंदु)>अधिक उपकरण >डेवलपर उपकरण और एलिमेंट पिकर टूल को ट्रेंडिंग एरिया पर होवर करें।
- ट्रेंडिंग टाइमलाइन एक है डिव एक साथ aria-लेबल विशेषता जिसका मूल्य है "टाइमलाइन: एक्सप्लोर करें". में मार्कअप पर होवर करें तत्वों पृष्ठ संरचना को बेहतर ढंग से समझने के लिए पैनल। एक और डिव ट्रेंडिंग हैशटैग / टॉपिक को स्टोर करता है। इस div को एक काउंटर के रूप में उपयोग करें और ट्रेंडिंग टॉपिक/हैशटैग वाले पृष्ठ के सभी divs के लिए पुनरावृति करें। सामग्री एक के भीतर संग्रहीत है अवधि या कुछ स्पान तत्व। खुले टैब का निरीक्षण करें और पदानुक्रम पर ध्यान दें। आप इसका उपयोग XPath एक्सप्रेशन बनाने के लिए कर सकते हैं। इस विशिष्ट तत्व के लिए XPath व्यंजक है:
पुनरावृति और लक्ष्य div [3], div [4], div [5], और इसी तरह। शीर्ष दस हैशटैग के लिए काउंटर 3 से 13 तक चलता है। सामान्यीकृत XPath बन जाता है:'//div[@aria-label="समयरेखा: अन्वेषण करें"]/div[1]/div[3]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
//div[@aria-label="समयरेखा: अन्वेषण करें"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
- किसी भी हैशटैग के पेजों के यूआरएल को समझने के लिए उस पर क्लिक करें। यदि आप यूआरएल की तुलना करते हैं, तो आपको ध्यान देना चाहिए कि हैशटैग के नाम से मिलान करने के लिए केवल क्वेरी पैरामीटर बदल जाता है। आप वास्तव में उन्हें निकाले बिना URL बनाने के लिए इस जानकारी का उपयोग कर सकते हैं।
यह प्रोजेक्ट निम्नलिखित पायथन मॉड्यूल और टूल्स का उपयोग करता है:
1. पांडा मॉड्यूल
तुम कर सकते हो पांडा डेटाफ़्रेम वर्ग का उपयोग करें हैशटैग और उनके संबंधित लिंक को सारणीबद्ध प्रारूप में संग्रहीत करने के लिए। जब इन सामग्रियों को किसी ऐसी CSV फ़ाइल में जोड़ने की बात आती है जिसे आप बाहरी रूप से साझा कर सकते हैं तो यह सहायक होगा।
2. समय मॉड्यूल
पृष्ठ सामग्री को पूरी तरह से लोड करने की अनुमति देने के लिए पायथन प्रोग्राम में देरी जोड़ने के लिए टाइम मॉड्यूल का उपयोग करें। यह उदाहरण 15 सेकंड की देरी का उपयोग करता है, लेकिन आप प्रयोग कर सकते हैं और अपनी परिस्थितियों के लिए उचित देरी चुन सकते हैं।
3. सेलेनियम मॉड्यूल
सेलेनियम वेब के साथ इंटरैक्ट करने की प्रक्रिया को स्वचालित कर सकता है। आप इसका उपयोग वेब ब्राउज़र की आवृत्ति को नियंत्रित करने, रुझान वाले पृष्ठ को खोलने और उसे नीचे स्क्रॉल करने के लिए कर सकते हैं। अपने पायथन वातावरण में सेलेनियम को स्थापित करने के लिए, अपना टर्मिनल और निष्पादित करेंपिप सेलेनियम स्थापित करें.
4. वेब चालक
ब्राउज़र के साथ इंटरैक्ट करने के लिए सेलेनियम के संयोजन में वेब ड्राइवर का उपयोग करें। आप जिस ब्राउज़र को स्वचालित करना चाहते हैं, उसके आधार पर विभिन्न वेब ड्राइवर उपलब्ध हैं। इस निर्माण के लिए, लोकप्रिय Google क्रोम ब्राउज़र का प्रयोग करें। क्रोम के लिए वेब ड्राइवर स्थापित करने के लिए:
- आप जिस ब्राउज़र का उपयोग कर रहे हैं, उसके संस्करण की जाँच करें मेन्यू (3 बिंदु) > सहायता>गूगल क्रोम के बारे में.
- ब्राउज़र के संस्करण पर ध्यान दें; इस स्थिति में, यह 106.0.5249.62 है।
- अपने पर जाओ टर्मिनल और टाइप करें पिप क्रोमड्राइवर-बाइनरी == वर्जन_नंबर स्थापित करें:
यदि कोई मिलान संस्करण नहीं है, तो पिप आपको उन उपलब्ध की एक सूची दिखाएगा; अपने क्रोम संस्करण के सबसे करीब चुनें।रंज स्थापित करना क्रोमड्राइवर-द्विआधारी==106.0.5249.62
ट्विटर स्क्रैपर कैसे बनाएं
अपना प्रोग्राम बनाने और रीयल-टाइम ट्रेंडिंग हैशटैग प्राप्त करने के लिए इन चरणों का पालन करें। आप इसमें पूरा स्रोत कोड पा सकते हैं गिटहब रिपॉजिटरी.
- आवश्यक मॉड्यूल को पायथन वातावरण में आयात करें।
# आवश्यक मॉड्यूल आयात करना
से सेलेनियम आयात webdriver
सेसेलेनियम.webdriver।सामान्य।द्वाराआयातद्वारा
आयात chromedriver_binary
आयात समय
आयात पांडा जैसा पी.डी. - ChromeDriver को इनिशियलाइज़ करने के लिए एक ऑब्जेक्ट बनाएँ और इसका उपयोग करके Google Chrome ब्राउज़र लॉन्च करें webdriver. क्रोम () समारोह।
# गूगल क्रोम ब्राउजर ओपन करें
ब्राउज़र = वेबड्राइवर। क्रोम () - इसके URL को पास करके ट्विटर का ट्रेंडिंग पेज खोलें पाना() समारोह।
# ट्विटर का ट्रेंडिंग पेज खोलें
ब्राउज़र.गेट ('https://twitter.com/explore/tabs/trending') - विलंब लागू करें ताकि पृष्ठ की सामग्री पूरी तरह से लोड हो जाए।
# पेज सामग्री लोड होने में देरी
समय।नींद(15) - हैशटैग को स्टोर करने के लिए एक खाली सूची बनाएं और पहले से XPath एक्सप्रेशन में वेरिएबल से मिलान करने के लिए 3 से 13 तक चलने वाले लूप की घोषणा करें।
# ट्रेंडिंग टॉपिक और हैशटैग स्टोर करने के लिए लिस्ट को इनिशियलाइज़ करें
Trending_topic_content=[]# ट्विटर के ट्रेंडिंग पेज पर विषय और हैशटैग एकत्र करें
मैं सीमा में (3,13) के लिए: - उपयोग Find_element () चहचहाना पर रुझान वाले विषय और हैशटैग प्राप्त करने के लिए कार्य करें और XPath चयनकर्ता को पास करें:
एक्सपाथ = एफ'//div[@aria-label="समयरेखा: अन्वेषण करें"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
Trending_topic = browser.find_element (द्वारा। XPATH, xpath)
Trending_topic_content.जोड़ें(विचारधारा का विषय।मूलपाठ) - सभी यूआरएल स्टोर करने के लिए एक खाली सूची बनाएं और एक लूप घोषित करें जो सभी हैशटैग के माध्यम से चलता है।
हैशटैग को हटाने के लिए उसका URL बनाने के लिए स्लाइस ऑपरेटर का उपयोग करें और रिक्त स्थान को URL एन्कोडिंग से बदलें, %20. सूची में लिंक जोड़ें।# एकत्र किए गए हैशटैग का उपयोग करके URL बनाएं
यूआरएल = []
मेरे लिए Trending_topic_content में:अगर मैं शुरू करता हूं ("#"):
मैं = मैं [1:]
यूआरएल ='https://twitter.com/search? क्यू =% 23' + मैं + '&src=trend_click'
अन्य:
यूआरएल = 'https://twitter.com/search? क्यू =' + मैं + '&src=trend_click'
url = url.replace ("", "%20")
यूआरएल.जोड़ें(यूआरएल) - हैशटैग के रूप में कुंजियों और उनके URL के रूप में मानों के साथ एक कुंजी-मूल्य युग्म शब्दकोश बनाएं।
# एक ऐसी डिक्शनरी बनाएं जिसमें हैशटैग और यूआरएल दोनों हों
डीआईसी = {'हैशटैग':trending_topic_content,'यूआरएल': यूआरएल} - असंरचित शब्दकोश को सारणीबद्ध डेटाफ़्रेम में बदलें।
# डिक्शनरी को पांडा में डेटाफ्रेम में बदलें
डीएफ = पीडी। डेटाफ़्रेम (डीआईसी)
छपाई(डीएफ) - DataFrame को CSV फ़ाइल में सहेजें जिसे आप Microsoft Excel में देख सकते हैं या आगे की प्रक्रिया कर सकते हैं।
# बिना सीरियल नंबर के डेटाफ्रेम को कोमा सेपरेटेड वैल्यू फॉर्मेट में बदलें
df.to_csv("Twitter_Hashtags.csv", इंडेक्स = झूठा)
वेब स्क्रैपिंग का उपयोग करके मूल्यवान अंतर्दृष्टि प्राप्त करें
वांछित डेटा प्राप्त करने और निर्णय लेने के लिए इसका विश्लेषण करने के लिए वेब स्क्रैपिंग एक शक्तिशाली तरीका है। सुंदर सूप एक प्रभावशाली पुस्तकालय है जिसे आप स्थापित कर सकते हैं और पायथन का उपयोग करके किसी भी HTML या XML फ़ाइल से डेटा को परिमार्जन करने के लिए उपयोग कर सकते हैं।
इसके साथ, आप रीयल-टाइम समाचारों की सुर्खियाँ, उत्पादों की कीमतें, खेल स्कोर, स्टॉक मूल्य, और बहुत कुछ हासिल करने के लिए इंटरनेट को खंगाल सकते हैं।