आप जैसे पाठक MUO का समर्थन करने में मदद करते हैं। जब आप हमारी साइट पर लिंक का उपयोग करके खरीदारी करते हैं, तो हम संबद्ध कमीशन अर्जित कर सकते हैं।

द्वारा साईं आशीष कोंचड़ा
शेयर करनाकरेंशेयर करनाईमेल

HTML को स्क्रैप करना फ़िडली हो सकता है, इसलिए सुनिश्चित करें कि आप इस प्रक्रिया को थोड़े से पायथन अभ्यास के साथ समझते हैं।

ट्विटर अब तक मौजूद सबसे प्रभावशाली सोशल मीडिया प्लेटफॉर्म में से एक है। शीर्ष राजनेताओं, मशहूर हस्तियों और सीईओ सहित लाखों लोग प्रतिदिन अपने विचार साझा करने के लिए मंच का उपयोग करते हैं।

ट्रेंडिंग टैब रीयल-टाइम समाचार और सोशल मीडिया भावनाओं को खोजने के लिए सबसे अच्छे स्थानों में से एक है। आप इस डेटा का विश्लेषण कर सकते हैं और इसका उपयोग ब्रांड विज्ञापनों की योजना बनाने, अभियान चलाने और तहों द्वारा बिक्री बढ़ाने के लिए कर सकते हैं। लेकिन आप ट्विटर पर शीर्ष दस ट्रेंडिंग हैशटैग कैसे प्राप्त कर सकते हैं?

एल्गोरिथम निर्माण प्रक्रिया

किसी भी प्रोग्राम के निर्माण के लिए पहला कदम ट्विटर स्क्रैपर बनाने के लिए आवश्यक कदमों को नोट करना और समझना है। वे हैं:

instagram viewer
  1. गूगल क्रोम खोलें।
  2. ट्विटर के ट्रेंडिंग पेज पर जाएं।
  3. हैशटैग और उनके संबंधित पेज लिंक को इकट्ठा करें।
  4. डेटा को स्प्रेडशीट में सेव करें।

यह समस्या कथन के एल्गोरिथम के रूप में कार्य करता है।

ट्विटर वेबपेज को समझना

इससे पहले कि आप इसे निकाल सकें, आपको यह जानना होगा कि कोई वेब पेज अपने डेटा को कैसे चिह्नित करता है। अगर आपको इसकी अच्छी समझ है तो यह बहुत मदद करता है HTML की मूल बातें और सीएसएस।

ट्विटर एक ट्रेंडिंग हैशटैग और उसके URL का प्रतिनिधित्व कैसे करता है, यह जानने के लिए इन चरणों का पालन करें:

  1. मिलने जाना ट्विटर का ट्रेंडिंग पेज. आप नेविगेट भी कर सकते हैं Twitter.comअन्वेषण करनारुझान इसे देखने के लिए।
  2. मुख्य स्तंभ का निरीक्षण करें क्रोम देव उपकरण का उपयोग करना. के लिए जाओ मेनू (3 बिंदु)>अधिक उपकरण >डेवलपर उपकरण और एलिमेंट पिकर टूल को ट्रेंडिंग एरिया पर होवर करें।
  3. ट्रेंडिंग टाइमलाइन एक है डिव एक साथ aria-लेबल विशेषता जिसका मूल्य है "टाइमलाइन: एक्सप्लोर करें". में मार्कअप पर होवर करें तत्वों पृष्ठ संरचना को बेहतर ढंग से समझने के लिए पैनल। एक और डिव ट्रेंडिंग हैशटैग / टॉपिक को स्टोर करता है। इस div को एक काउंटर के रूप में उपयोग करें और ट्रेंडिंग टॉपिक/हैशटैग वाले पृष्ठ के सभी divs के लिए पुनरावृति करें। सामग्री एक के भीतर संग्रहीत है अवधि या कुछ स्पान तत्व। खुले टैब का निरीक्षण करें और पदानुक्रम पर ध्यान दें। आप इसका उपयोग XPath एक्सप्रेशन बनाने के लिए कर सकते हैं। इस विशिष्ट तत्व के लिए XPath व्यंजक है:
    '//div[@aria-label="समयरेखा: अन्वेषण करें"]/div[1]/div[3]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
    पुनरावृति और लक्ष्य div [3], div [4], div [5], और इसी तरह। शीर्ष दस हैशटैग के लिए काउंटर 3 से 13 तक चलता है। सामान्यीकृत XPath बन जाता है:
    //div[@aria-label="समयरेखा: अन्वेषण करें"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
  4. किसी भी हैशटैग के पेजों के यूआरएल को समझने के लिए उस पर क्लिक करें। यदि आप यूआरएल की तुलना करते हैं, तो आपको ध्यान देना चाहिए कि हैशटैग के नाम से मिलान करने के लिए केवल क्वेरी पैरामीटर बदल जाता है। आप वास्तव में उन्हें निकाले बिना URL बनाने के लिए इस जानकारी का उपयोग कर सकते हैं।

यह प्रोजेक्ट निम्नलिखित पायथन मॉड्यूल और टूल्स का उपयोग करता है:

1. पांडा मॉड्यूल

तुम कर सकते हो पांडा डेटाफ़्रेम वर्ग का उपयोग करें हैशटैग और उनके संबंधित लिंक को सारणीबद्ध प्रारूप में संग्रहीत करने के लिए। जब इन सामग्रियों को किसी ऐसी CSV फ़ाइल में जोड़ने की बात आती है जिसे आप बाहरी रूप से साझा कर सकते हैं तो यह सहायक होगा।

2. समय मॉड्यूल

पृष्ठ सामग्री को पूरी तरह से लोड करने की अनुमति देने के लिए पायथन प्रोग्राम में देरी जोड़ने के लिए टाइम मॉड्यूल का उपयोग करें। यह उदाहरण 15 सेकंड की देरी का उपयोग करता है, लेकिन आप प्रयोग कर सकते हैं और अपनी परिस्थितियों के लिए उचित देरी चुन सकते हैं।

3. सेलेनियम मॉड्यूल

सेलेनियम वेब के साथ इंटरैक्ट करने की प्रक्रिया को स्वचालित कर सकता है। आप इसका उपयोग वेब ब्राउज़र की आवृत्ति को नियंत्रित करने, रुझान वाले पृष्ठ को खोलने और उसे नीचे स्क्रॉल करने के लिए कर सकते हैं। अपने पायथन वातावरण में सेलेनियम को स्थापित करने के लिए, अपना टर्मिनल और निष्पादित करेंपिप सेलेनियम स्थापित करें.

4. वेब चालक

ब्राउज़र के साथ इंटरैक्ट करने के लिए सेलेनियम के संयोजन में वेब ड्राइवर का उपयोग करें। आप जिस ब्राउज़र को स्वचालित करना चाहते हैं, उसके आधार पर विभिन्न वेब ड्राइवर उपलब्ध हैं। इस निर्माण के लिए, लोकप्रिय Google क्रोम ब्राउज़र का प्रयोग करें। क्रोम के लिए वेब ड्राइवर स्थापित करने के लिए:

  1. आप जिस ब्राउज़र का उपयोग कर रहे हैं, उसके संस्करण की जाँच करें मेन्यू (3 बिंदु) > सहायता>गूगल क्रोम के बारे में.
  2. ब्राउज़र के संस्करण पर ध्यान दें; इस स्थिति में, यह 106.0.5249.62 है।
  3. अपने पर जाओ टर्मिनल और टाइप करें पिप क्रोमड्राइवर-बाइनरी == वर्जन_नंबर स्थापित करें:
    रंज स्थापित करना क्रोमड्राइवर-द्विआधारी==106.0.5249.62
    यदि कोई मिलान संस्करण नहीं है, तो पिप आपको उन उपलब्ध की एक सूची दिखाएगा; अपने क्रोम संस्करण के सबसे करीब चुनें।

ट्विटर स्क्रैपर कैसे बनाएं

अपना प्रोग्राम बनाने और रीयल-टाइम ट्रेंडिंग हैशटैग प्राप्त करने के लिए इन चरणों का पालन करें। आप इसमें पूरा स्रोत कोड पा सकते हैं गिटहब रिपॉजिटरी.

  1. आवश्यक मॉड्यूल को पायथन वातावरण में आयात करें।
    # आवश्यक मॉड्यूल आयात करना
    से सेलेनियम आयात webdriver
    सेसेलेनियम.webdriver।सामान्य।द्वाराआयातद्वारा
    आयात chromedriver_binary
    आयात समय
    आयात पांडा जैसा पी.डी.
  2. ChromeDriver को इनिशियलाइज़ करने के लिए एक ऑब्जेक्ट बनाएँ और इसका उपयोग करके Google Chrome ब्राउज़र लॉन्च करें webdriver. क्रोम () समारोह।
    # गूगल क्रोम ब्राउजर ओपन करें
    ब्राउज़र = वेबड्राइवर। क्रोम ()
  3. इसके URL को पास करके ट्विटर का ट्रेंडिंग पेज खोलें पाना() समारोह।
    # ट्विटर का ट्रेंडिंग पेज खोलें
    ब्राउज़र.गेट ('https://twitter.com/explore/tabs/trending')
  4. विलंब लागू करें ताकि पृष्ठ की सामग्री पूरी तरह से लोड हो जाए।
    # पेज सामग्री लोड होने में देरी
    समय।नींद(15)
  5. हैशटैग को स्टोर करने के लिए एक खाली सूची बनाएं और पहले से XPath एक्सप्रेशन में वेरिएबल से मिलान करने के लिए 3 से 13 तक चलने वाले लूप की घोषणा करें।
    # ट्रेंडिंग टॉपिक और हैशटैग स्टोर करने के लिए लिस्ट को इनिशियलाइज़ करें
    Trending_topic_content=[]

    # ट्विटर के ट्रेंडिंग पेज पर विषय और हैशटैग एकत्र करें
    मैं सीमा में (3,13) के लिए:

  6. उपयोग Find_element () चहचहाना पर रुझान वाले विषय और हैशटैग प्राप्त करने के लिए कार्य करें और XPath चयनकर्ता को पास करें:
    एक्सपाथ = एफ'//div[@aria-label="समयरेखा: अन्वेषण करें"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
    Trending_topic = browser.find_element (द्वारा। XPATH, xpath)
    Trending_topic_content.जोड़ें(विचारधारा का विषय।मूलपाठ)
  7. सभी यूआरएल स्टोर करने के लिए एक खाली सूची बनाएं और एक लूप घोषित करें जो सभी हैशटैग के माध्यम से चलता है।
    # एकत्र किए गए हैशटैग का उपयोग करके URL बनाएं
    यूआरएल = []
    मेरे लिए Trending_topic_content में:
    हैशटैग को हटाने के लिए उसका URL बनाने के लिए स्लाइस ऑपरेटर का उपयोग करें और रिक्त स्थान को URL एन्कोडिंग से बदलें, %20. सूची में लिंक जोड़ें।
    अगर मैं शुरू करता हूं ("#"):
    मैं = मैं [1:]
    यूआरएल ='https://twitter.com/search? क्यू =% 23' + मैं + '&src=trend_click'
    अन्य:
    यूआरएल = 'https://twitter.com/search? क्यू =' + मैं + '&src=trend_click'
    url = url.replace ("", "%20")
    यूआरएल.जोड़ें(यूआरएल)
  8. हैशटैग के रूप में कुंजियों और उनके URL के रूप में मानों के साथ एक कुंजी-मूल्य युग्म शब्दकोश बनाएं।
    # एक ऐसी डिक्शनरी बनाएं जिसमें हैशटैग और यूआरएल दोनों हों
    डीआईसी = {'हैशटैग':trending_topic_content,'यूआरएल': यूआरएल}
  9. असंरचित शब्दकोश को सारणीबद्ध डेटाफ़्रेम में बदलें।
    # डिक्शनरी को पांडा में डेटाफ्रेम में बदलें
    डीएफ = पीडी। डेटाफ़्रेम (डीआईसी)
    छपाई(डीएफ)
  10. DataFrame को CSV फ़ाइल में सहेजें जिसे आप Microsoft Excel में देख सकते हैं या आगे की प्रक्रिया कर सकते हैं।
    # बिना सीरियल नंबर के डेटाफ्रेम को कोमा सेपरेटेड वैल्यू फॉर्मेट में बदलें
    df.to_csv("Twitter_Hashtags.csv", इंडेक्स = झूठा)

वेब स्क्रैपिंग का उपयोग करके मूल्यवान अंतर्दृष्टि प्राप्त करें

वांछित डेटा प्राप्त करने और निर्णय लेने के लिए इसका विश्लेषण करने के लिए वेब स्क्रैपिंग एक शक्तिशाली तरीका है। सुंदर सूप एक प्रभावशाली पुस्तकालय है जिसे आप स्थापित कर सकते हैं और पायथन का उपयोग करके किसी भी HTML या XML फ़ाइल से डेटा को परिमार्जन करने के लिए उपयोग कर सकते हैं।

इसके साथ, आप रीयल-टाइम समाचारों की सुर्खियाँ, उत्पादों की कीमतें, खेल स्कोर, स्टॉक मूल्य, और बहुत कुछ हासिल करने के लिए इंटरनेट को खंगाल सकते हैं।

इस खूबसूरत सूप पायथन ट्यूटोरियल के साथ एक वेबसाइट परिमार्जन करें

आगे पढ़िए

शेयर करनाकरेंशेयर करनाईमेल

संबंधित विषय

  • प्रोग्रामिंग
  • प्रोग्रामिंग
  • अजगर
  • वेब विकास
  • वेब स्क्रेपिंग
  • ट्विटर

लेखक के बारे में

साईं आशीष कोंचड़ा (3 लेख प्रकाशित)

साई आशीष एक फुल स्टैक डेवलपर हैं जिन्हें वेबसाइट और वेब एप्लिकेशन बनाने का उद्योग का अनुभव है। उन्हें नवीन उत्पादों का निर्माण करना और प्रोग्रामिंग पर व्यावहारिक लेख लिखना पसंद है।

साईं आशीष कोंचड़ा से अधिक

टिप्पणी

हमारे न्युजलेटर की सदस्यता प्राप्त करें

तकनीकी सुझावों, समीक्षाओं, निःशुल्क ई-पुस्तकों और विशिष्ट सौदों के लिए हमारे न्यूज़लेटर से जुड़ें!

सब्सक्राइब करने के लिए यहां क्लिक करें

तार पर

अब फैशन में है