यदि आप अक्सर स्वयं को वेबसाइटों से डेटा प्राप्त करते हुए पाते हैं, तो आपको संभवतः इस प्रक्रिया को स्वचालित करने पर विचार करना चाहिए। कभी-कभी "वेब स्क्रैपिंग" के रूप में जाना जाता है, यह प्रक्रिया उन साइटों के लिए एक सामान्य प्रक्रिया है जो औपचारिक API या फ़ीड प्रदान नहीं करती हैं। बेशक, यदि आप जिस साइट को लाने का प्रयास कर रहे हैं वह अनुपलब्ध है, तो आप कहीं नहीं पहुंचेंगे।
यदि आप अपनी स्वयं की साइट चलाते हैं, तो संभवतः आपको पहले डाउनटाइम का सामना करना पड़ा होगा। यह निराशाजनक हो सकता है, जिससे आप आगंतुकों को खो सकते हैं और आपकी साइट के लिए जिम्मेदार किसी भी गतिविधि को बाधित कर सकते हैं। ऐसी परिस्थितियों में, यह आपकी वेबसाइट की उपलब्धता की आसानी से जांच करने में सक्षम होने के लिए भुगतान करता है।
स्क्रिप्टिंग के लिए पायथन एक बेहतरीन भाषा है, और इसका संक्षिप्त लेकिन पठनीय सिंटैक्स साइट चेकर को लागू करना एक सरल कार्य बनाता है।
अपना निजीकृत वेबसाइट चेकर बनाना
वेबसाइट चेकर एक साथ कई वेबसाइटों को समायोजित करने के लिए तैयार किया गया है। इससे आप आसानी से उन साइटों को स्विच आउट कर सकते हैं जिनकी अब आप परवाह नहीं करते हैं, या भविष्य में आपके द्वारा लॉन्च की जाने वाली साइटों की जांच करना शुरू कर देते हैं। चेकर एक आदर्श "कंकाल ऐप" है जिस पर आप आगे निर्माण कर सकते हैं, लेकिन यह वेब डेटा लाने के लिए एक बुनियादी दृष्टिकोण प्रदर्शित करता है।
पायथन में पुस्तकालय आयात करें
परियोजना को शुरू करने के लिए, आपको आयात करना होगा अनुरोध के साथ पायथन में पुस्तकालय आयात समारोह।
आयात अनुरोध
अनुरोध पुस्तकालय वेबसाइटों के साथ संचार के लिए उपयोगी है। आप इसका उपयोग HTTP अनुरोध भेजने और प्रतिक्रिया डेटा प्राप्त करने के लिए कर सकते हैं।
वेबसाइट URL को एक सूची में संग्रहित करें
एक बार जब आप पुस्तकालय आयात कर लेते हैं, तो आपको सूची में वेबसाइट URL को परिभाषित और संग्रहीत करना चाहिए। यह चरण आपको कई URL बनाए रखने की अनुमति देता है, जिसे आप वेबसाइट चेकर से जांच सकते हैं।
आयात अनुरोध
वेबसाइट_यूआरएल = [
" https://www.google.co.में",
" https://www.yahoo.com",
" https://www.amazon.co.में",
" https://www.pipsnacks.com/404",
" http://the-internet.herokuapp.com/status_codes/301",
" http://the-internet.herokuapp.com/status_codes/500"
]
चर वेबसाइट यूआरएल URL की सूची संग्रहीत करता है। सूची के अंदर, प्रत्येक यूआरएल को परिभाषित करें जिसे आप एक अलग स्ट्रिंग के रूप में जांचना चाहते हैं। आप परीक्षण के लिए कोड में उदाहरण URL का उपयोग कर सकते हैं या आप तुरंत अपनी साइटों की जांच शुरू करने के लिए उन्हें बदल सकते हैं।
इसके बाद, संदेशों को सामान्य के लिए संग्रहीत करें HTTP प्रतिक्रिया कोड. आप इन्हें एक शब्दकोश में रख सकते हैं, और प्रत्येक संदेश को उसके संबंधित स्थिति कोड द्वारा अनुक्रमित कर सकते हैं। आपका प्रोग्राम बेहतर पठनीयता के लिए स्थिति कोड के बजाय इन संदेशों का उपयोग कर सकता है।
स्थितियां = {
200: "वेबसाइट उपलब्ध",
301: "स्थायी रीडायरेक्ट",
302: "अस्थायी रीडायरेक्ट",
404: "पता नहीं चला",
500: "आंतरिक सर्वर त्रुटि",
503: "सेवा उप्लब्ध् नहीं है"
}
वेबसाइट की स्थिति जांचने के लिए एक लूप बनाना
प्रत्येक URL को बारी-बारी से जांचने के लिए, आपको यह करना होगा सूची के माध्यम से लूप वेबसाइटों की। लूप के अंदर, अनुरोध पुस्तकालय के माध्यम से अनुरोध भेजकर प्रत्येक साइट की स्थिति जांचें।
के लिये यूआरएल में वेबसाइट यूआरएल:
प्रयत्न:
web_response = request.get (url)
प्रिंट (यूआरएल, स्थिति [web_response.status_code])
के अलावा:
प्रिंट (यूआरएल, स्थिति [web_response.status_code])
कहाँ पे:
- यूआरएल के लिए...URL की सूची पर पुनरावृति।
- यूआरएल वह चर है जिसके लिए लूप प्रत्येक URL को असाइन करता है।
- कोशिश करें/छोड़करकिसी भी अपवाद को संभालता है जो उत्पन्न हो सकता है।
- वेब_प्रतिक्रिया एक चर है जो प्रतिक्रिया की स्थिति कोड के साथ एक संपत्ति प्रदान करता है
संपूर्ण कोड स्निपेट
यदि आप एक बार में पूरे कोड की समीक्षा करना पसंद करते हैं, तो संदर्भ के लिए यहां एक पूर्ण कोड सूची है।
आयात अनुरोध
वेबसाइट_यूआरएल = [
" https://www.google.co.में",
" https://www.yahoo.com",
" https://www.amazon.co.में",
" https://www.pipsnacks.com/404",
" http://the-internet.herokuapp.com/status_codes/301",
" http://the-internet.herokuapp.com/status_codes/500"
]स्थितियां = {
200: "वेबसाइट उपलब्ध",
301: "स्थायी रीडायरेक्ट",
302: "अस्थायी रीडायरेक्ट",
404: "पता नहीं चला",
500: "आंतरिक सर्वर त्रुटि",
503: "सेवा उप्लब्ध् नहीं है"
}के लिये यूआरएल में वेबसाइट यूआरएल:
प्रयत्न:
web_response = request.get (url)
प्रिंट (यूआरएल, स्थिति [web_response.status_code])
के अलावा:
प्रिंट (यूआरएल, स्थिति [web_response.status_code])
और यहाँ कोड का एक उदाहरण रन है:
वेब स्क्रैपिंग में पायथन की कोडिंग क्षमताएं
पायथन के तृतीय-पक्ष पुस्तकालय वेब स्क्रैपिंग और HTTP के माध्यम से डेटा लाने जैसे कार्यों के लिए आदर्श हैं।
आप विभिन्न प्रकार के कार्यों को करने के लिए वेबसाइटों को स्वचालित अनुरोध भेज सकते हैं। इनमें समाचार की सुर्खियाँ पढ़ना, चित्र डाउनलोड करना और स्वचालित रूप से ईमेल भेजना शामिल हो सकता है।