क्या आप जानते हैं कि Google शीट का उपयोग करके किसी वेबसाइट से डेटा निकालना संभव है? यहां बताया गया है कि आप यह कैसे कर सकते हैं.

वेब स्क्रैपिंग वेबसाइटों से जानकारी निकालने और उनका स्वचालित रूप से विश्लेषण करने की एक शक्तिशाली तकनीक है। हालाँकि आप इसे मैन्युअल रूप से कर सकते हैं, यह एक कठिन और समय लेने वाला कार्य हो सकता है। वेब स्क्रैपिंग उपकरण कम लागत के साथ प्रक्रिया को तेज़ और अधिक कुशल बनाते हैं।

दिलचस्प बात यह है कि Google शीट्स में आपके IMPORTXML फ़ंक्शन की बदौलत आपका वन-स्टॉप वेब स्क्रैपिंग टूल बनने की क्षमता है। IMPORTXML के साथ, आप आसानी से वेब पेजों से डेटा निकाल सकते हैं और इसका उपयोग विश्लेषण, रिपोर्टिंग या किसी अन्य डेटा-संचालित कार्यों के लिए कर सकते हैं।

Google शीट्स में IMPORTXML फ़ंक्शन

Google शीट्स IMPORTXML नामक एक अंतर्निहित फ़ंक्शन प्रदान करता है, जो आपको XML, HTML, RSS और CSV जैसे वेब प्रारूपों से डेटा आयात करने देता है। यदि आप जटिल कोडिंग का सहारा लिए बिना वेबसाइटों से डेटा एकत्र करना चाहते हैं तो यह फ़ंक्शन गेम-चेंजर हो सकता है।

यहां IMPORTXML का मूल सिंटैक्स है:

=IMPORTXML(url, xpath_query)
instagram viewer
  • यूआरएल: उस वेब पेज का यूआरएल जिससे आप डेटा स्क्रैप करना चाहते हैं।
  • xpath_query: XPath क्वेरी जो उस डेटा को परिभाषित करती है जिसे आप निकालना चाहते हैं।

XPath (XML पाथ लैंग्वेज) एक ऐसी भाषा है जिसका उपयोग HTML सहित XML दस्तावेज़ों को नेविगेट करने के लिए किया जाता है - जो आपको HTML संरचना के भीतर डेटा का स्थान निर्दिष्ट करने की अनुमति देता है। IMPORTXML का ठीक से उपयोग करने के लिए XPath क्वेरीज़ को समझना आवश्यक है।

XPath को समझना

XPath HTML दस्तावेज़ के भीतर डेटा को नेविगेट और फ़िल्टर करने के लिए विभिन्न फ़ंक्शन और अभिव्यक्ति प्रदान करता है। एक विस्तृत XML और XPath मार्गदर्शिका इस लेख के दायरे से परे है, इसलिए हम कुछ आवश्यक XPath अवधारणाओं पर विचार करेंगे:

  • तत्व चयन: आप इसका उपयोग करके तत्वों का चयन कर सकते हैं / और // पथों को दर्शाने के लिए. उदाहरण के लिए, /html/body/div दस्तावेज़ के मुख्य भाग में सभी div तत्वों का चयन करता है।
  • गुण चयन: विशेषताओं का चयन करने के लिए, आप इसका उपयोग कर सकते हैं @. उदाहरण के लिए, //@href सभी का चयन करता है href पृष्ठ पर विशेषताएँ.
  • विधेय फिल्टर: आप वर्गाकार कोष्ठकों में संलग्न विधेय का उपयोग करके तत्वों को फ़िल्टर कर सकते हैं ([ ]). उदाहरण के लिए, /div[@class="container"] सभी का चयन करता है डिव वर्ग के साथ तत्व CONTAINER.
  • कार्य: XPath विभिन्न कार्य प्रदान करता है जैसे कि रोकना(), इसके साथ आरंभ होता है(), और मूलपाठ() पाठ सामग्री या विशेषता मानों की जाँच करने जैसी विशिष्ट क्रियाएँ करने के लिए।

किसी वेबसाइट से XPath कैसे निकालें

अब तक, आप IMPORTXML सिंटैक्स जानते हैं, आप वेबसाइट का यूआरएल जानते हैं, और आप जानते हैं कि आप कौन सा तत्व निकालना चाहते हैं। लेकिन आप तत्व का XPath कैसे प्राप्त करते हैं?

IMPORTXML के साथ किसी वेबसाइट का डेटा निकालने के लिए आपको उसकी संरचना को याद रखने की ज़रूरत नहीं है। वास्तव में, प्रत्येक ब्राउज़र में एक अच्छा टूल होता है जो आपको किसी भी तत्व के XPath को तुरंत कॉपी करने देता है।

तत्व का निरीक्षण करें उपकरण आपको वेबसाइट तत्वों से XPath निकालने की सुविधा देता है। ऐसे:

  1. अपने पसंदीदा वेब ब्राउज़र का उपयोग करके उस वेब पेज पर जाएँ जिसे आप स्क्रैप करना चाहते हैं।
  2. उस तत्व का पता लगाएं जिसे आप स्क्रैप करना चाहते हैं।
  3. तत्व पर राइट-क्लिक करें।
  4. चुनना तत्व का निरीक्षण राइट-क्लिक मेनू से. आपका ब्राउज़र एक पैनल खोलेगा जो वेब पेज का HTML कोड प्रदर्शित करेगा। प्रासंगिक HTML तत्व को कोड में हाइलाइट किया जाएगा।
  5. तत्व का निरीक्षण करें पैनल में, HTML कोड में हाइलाइट किए गए तत्व पर राइट-क्लिक करें।
  6. क्लिक XPath की प्रतिलिपि बनाएँ तत्व के XPath पते को अपने क्लिपबोर्ड पर कॉपी करने के लिए।

अब जब आपको अपनी जरूरत की सभी चीजें मिल गई हैं, तो अब IMPORTXML को क्रियान्वित होते देखने और कुछ लिंक्स को खंगालने का समय आ गया है।

आप वेबसाइटों से सभी प्रकार के डेटा को स्क्रैप करने के लिए IMPORTXML का उपयोग कर सकते हैं। इसमें लिंक, वीडियो, चित्र और वेबसाइट का लगभग कोई भी तत्व शामिल है। लिंक वेब विश्लेषण में सबसे प्रमुख तत्वों में से एक हैं, और आप किसी वेबसाइट से लिंक किए गए पृष्ठों का विश्लेषण करके ही उसके बारे में बहुत कुछ सीख सकते हैं।

IMPORTXML आपको Google शीट्स में लिंक को जल्दी से स्क्रैप करने देता है और फिर Google शीट्स द्वारा प्रदान किए जाने वाले विभिन्न कार्यों का उपयोग करके उनका विश्लेषण करता है।

किसी वेबपेज से सभी लिंक को स्क्रैप करने के लिए, आप निम्न सूत्र का उपयोग कर सकते हैं:

=IMPORTXML(url, "//a/@href") 

यह XPath क्वेरी सभी का चयन करती है href के गुण तत्व, पृष्ठ पर सभी लिंक को प्रभावी ढंग से निकाल रहे हैं।

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a/@href")

उपरोक्त सूत्र विकिपीडिया लेख के सभी लिंक को हटा देता है।

वेब पेज के यूआरएल को एक अलग सेल में इनपुट करना और फिर उस सेल को देखना एक अच्छा विचार है। यह आपके फ़ॉर्मूले को बहुत लंबा और बोझिल होने से रोकेगा। आप XPath क्वेरी के साथ भी ऐसा ही कर सकते हैं.

2. सभी लिंक टेक्स्ट को स्क्रैप करना

लिंक का टेक्स्ट उनके यूआरएल के साथ निकालने के लिए, आप इसका उपयोग कर सकते हैं:

=IMPORTXML(url, "//a") 

यह क्वेरी सभी तत्वों का चयन करती है, और आप परिणामों से लिंक टेक्स्ट और यूआरएल निकाल सकते हैं।

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a")

उपरोक्त सूत्र को उसी विकिपीडिया लेख में लिंक टेक्स्ट मिलता है।

कभी-कभी, आपको मानदंड के आधार पर विशिष्ट लिंक को खंगालने की आवश्यकता हो सकती है। उदाहरण के लिए, आपको ऐसे लिंक निकालने में रुचि हो सकती है जिनमें कोई विशेष कीवर्ड या लिंक हों जो पृष्ठ के किसी विशिष्ट अनुभाग में स्थित हों।

XPath के उचित ज्ञान के साथ, आप जिस भी तत्व की तलाश कर रहे हैं उसे इंगित कर सकते हैं।

किसी विशिष्ट कीवर्ड वाले लिंक को स्क्रैप करने के लिए, आप शामिल() XPath फ़ंक्शन का उपयोग कर सकते हैं:

=IMPORTXML(url, "//a[contains(@href, 'keyword')]/@href") 

यह क्वेरी उन तत्वों की href विशेषताओं का चयन करती है जहां href में निर्दिष्ट कीवर्ड होता है।

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a[contains(@href, 'record')]/@href")

उपरोक्त सूत्र उन सभी लिंकों को हटा देता है जिनमें नमूना विकिपीडिया लेख के पाठ में शब्द रिकॉर्ड शामिल है।

किसी पृष्ठ के किसी विशेष अनुभाग से लिंक निकालने के लिए, आप अनुभाग का XPath निर्दिष्ट कर सकते हैं। उदाहरण के लिए:

=IMPORTXML(url, "//div[@class='section']//a/@href") 

यह क्वेरी वर्ग "अनुभाग" के साथ div तत्वों के भीतर तत्वों की href विशेषताओं का चयन करती है।

इसी प्रकार, नीचे दिया गया सूत्र div वर्ग के भीतर उन सभी लिंक का चयन करता है जिनमें mw-content-container वर्ग है:

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//div[@class='mw-content-container']//a/@href")

यह ध्यान देने योग्य है कि आप IMPORTXML का उपयोग वेब स्क्रैपिंग से अधिक के लिए कर सकते हैं। आप फ़ंक्शंस के आयात परिवार का उपयोग कर सकते हैं वेबसाइटों से डेटा तालिकाओं को Google शीट में आयात करें.

हालाँकि Google शीट्स और Excel अपने अधिकांश फ़ंक्शंस साझा करते हैं, फ़ंक्शंस का IMPORT परिवार Google शीट्स के लिए अद्वितीय है। इसके लिए आपको अन्य तरीकों पर विचार करना होगा वेबसाइटों से एक्सेल में डेटा आयात करें.

Google शीट्स के साथ वेब स्क्रैपिंग को सरल बनाएं

Google शीट्स और IMPORTXML फ़ंक्शन के साथ वेब स्क्रैपिंग वेबसाइटों से डेटा एकत्र करने का एक बहुमुखी और सुलभ तरीका है।

XPath में महारत हासिल करके और प्रभावी क्वेरी बनाने का तरीका समझकर, आप IMPORTXML की पूरी क्षमता को अनलॉक कर सकते हैं और वेब संसाधनों से मूल्यवान अंतर्दृष्टि प्राप्त कर सकते हैं। तो, स्क्रैपिंग शुरू करें और अपने वेब विश्लेषण को अगले स्तर पर ले जाएं!