प्रोग्रामिंग ने संरचित और असंरचित शाब्दिक डेटा से निपटना आसान बना दिया है। रेगुलर एक्सप्रेशन और बाहरी लाइब्रेरी जैसे उपकरण इन कार्यों को बहुत आसान बना देते हैं।

रेगुलर एक्सप्रेशन का उपयोग करके URL को मान्य करने के लिए आप Python और JavaScript सहित अधिकांश भाषाओं का उपयोग कर सकते हैं। यह उदाहरण रेगेक्स सही नहीं है, लेकिन आप इसका उपयोग सरल उपयोग के मामलों के लिए यूआरएल की जांच के लिए कर सकते हैं।

एक यूआरएल को प्रमाणित करने के लिए एक नियमित अभिव्यक्ति

इस आलेख में प्रस्तुत URL को मान्य करने के लिए रेगेक्स सटीक नहीं है। वैध यूआरएल के कई उदाहरण हो सकते हैं जो इस रेगेक्स सत्यापन को विफल कर सकते हैं। इसमें IP पते, गैर-ASCII वर्ण और FTP जैसे प्रोटोकॉल वाले URL शामिल हैं। निम्नलिखित रेगेक्स केवल सबसे सामान्य यूआरएल को मान्य करता है।

रेगेक्स किसी URL को मान्य मानेगा यदि वह निम्न शर्तों को पूरा करता है:

  1. स्ट्रिंग या तो से शुरू होनी चाहिए एचटीटीपी या HTTPS के के बाद ://.
  2. सब-डोमेन और डोमेन की संयुक्त लंबाई 2 और 256 के बीच होनी चाहिए। इसमें केवल अल्फ़ान्यूमेरिक वर्ण और/या विशेष वर्ण होने चाहिए।
  3. TLD (टॉप-लेवल डोमेन) में केवल अक्षर वर्ण होने चाहिए और यह दो से छह वर्णों के बीच होना चाहिए।
  4. instagram viewer
  5. URL स्ट्रिंग के अंत में अल्फ़ान्यूमेरिक वर्ण और/या विशेष वर्ण हो सकते हैं। और यह शून्य या अधिक बार दोहरा सकता है।

आप निम्नलिखित रेगुलर एक्सप्रेशन का उपयोग करके जावास्क्रिप्ट में एक URL को मान्य कर सकते हैं:

^(http (s):\/\/.)[-a-zA-Z0-9@:%._\+~#=]{2,256}\.[a-z]{2,6}\b([-a-zA-Z0-9@:%_\+.~#?&//=]*)$

इसी तरह, आप पायथन में URL को मान्य करने के लिए निम्नलिखित रेगेक्स का उपयोग कर सकते हैं:

^((http|https)://)[-a-zA-Z0-9@:%._\\+~#?&//=]{2,256}\\.[a-z]{2,6}\\b([-a-zA-Z0-9@:%._\\+~#?&//=]*)$

कहाँ:

  • (http|https)://) यह सुनिश्चित करता है कि स्ट्रिंग या तो http या https के बाद शुरू होती है: //।
  • [-a-zA-Z0-9@:%._\\+~#?&//=] अल्फ़ान्यूमेरिक वर्णों और/या विशेष वर्णों को इंगित करता है। इस सेट का पहला उदाहरण उप-डोमेन और डोमेन भाग में अनुमति देने के लिए वर्णों के सेट का प्रतिनिधित्व करता है। जबकि इस सेट का दूसरा उदाहरण क्वेरी स्ट्रिंग या उपनिर्देशिका भाग में अनुमति देने के लिए वर्णों के सेट का प्रतिनिधित्व करता है।
  • {2,256} 2 से 256 (दोनों समावेशी) बार घटना संकेतक का प्रतिनिधित्व करता है। यह इंगित करता है कि उपडोमेन और डोमेन की संयुक्त लंबाई दो और 256 के बीच होनी चाहिए।
  • \. डॉट कैरेक्टर का प्रतिनिधित्व करता है।
  • [ए-जेड] {2,6} मतलब दो और छह के बीच की लंबाई के साथ a से z तक कोई भी लोअरकेस अक्षर। यह शीर्ष-स्तरीय डोमेन भाग में अनुमति देने के लिए वर्णों के सेट का प्रतिनिधित्व करता है।
  • \बी एक शब्द की सीमा का प्रतिनिधित्व करता है, यानी एक शब्द की शुरुआत या एक का अंत।
  • * एक दोहराव ऑपरेटर है जो क्वेरी स्ट्रिंग, पैरामीटर या उपनिर्देशिकाओं की शून्य या अधिक प्रतियों को इंगित करता है।
  • ^ और $ क्रमशः स्ट्रिंग की शुरुआत और अंत इंगित करें।

यदि आप उपरोक्त अभिव्यक्ति से असहज हैं, तो देखें रेगुलर एक्सप्रेशंस के लिए शुरुआती गाइड पहला। रेगुलर एक्सप्रेशंस के अभ्यस्त होने में कुछ समय लगता है। जैसे कुछ उदाहरण तलाश रहे हैं रेगुलर एक्सप्रेशन का उपयोग करके उपयोगकर्ता खाता विवरण को मान्य करना मदद करनी चाहिए।

उपरोक्त रेगेक्स निम्न प्रकार के यूआरएल को संतुष्ट करता है:

  • https://www.something.com/
  • http://www.something.com/
  • https://www.something.edu.co.in
  • http://www.url-with-path.com/path
  • https://www.url-with-querystring.com/?url=has-querystring
  • http://url-without-www-subdomain.com/
  • https://mail.google.com

किसी प्रोग्राम में रेगुलर एक्सप्रेशन का उपयोग करना

इस परियोजना में प्रयुक्त कोड एक में उपलब्ध है गिटहब रिपॉजिटरी और आपके लिए एमआईटी लाइसेंस के तहत उपयोग करने के लिए स्वतंत्र है।

URL को मान्य करने के लिए यह एक पायथन दृष्टिकोण है:

आयात दोबारा

डीईएफ़ValidateURL(यूआरएल):
रेगेक्स = "^((http|https)://)[-a-zA-Z0-9@:%._\\+~#?&//=]{2,256}\\.[a-z]{2,6}\\b([-a-zA-Z0-9@:%._\\+~#?&//=]*)$"
r = re.compile (रेगेक्स)

अगर (दोबारा।खोज(आर, यूआरएल)):
प्रिंट ("वैध")
अन्य:
प्रिंट ("मान्य नहीं है")

url1 = "https://www.linkedin.com/"
मान्यURL(url1)
url2 = "http://apple"
मान्यURL(url2)
url3 = "iwegfuykegf"
मान्यURL(url3)
url4 = "https://w"
मान्यURL(url4)

यह कोड पायथन का उपयोग करता है पुन: संकलन () रेगुलर एक्सप्रेशन पैटर्न को संकलित करने की विधि। यह विधि रेगेक्स पैटर्न को एक स्ट्रिंग पैरामीटर के रूप में स्वीकार करती है और एक रेगेक्स पैटर्न ऑब्जेक्ट लौटाती है। इस रेगेक्स पैटर्न ऑब्जेक्ट का उपयोग लक्ष्य स्ट्रिंग के अंदर रेगेक्स पैटर्न की घटनाओं को देखने के लिए किया जाता है शोध करना() तरीका।

यदि यह कम से कम एक मैच पाता है, तो शोध करना() विधि पहला मैच लौटाती है। ध्यान दें कि यदि आप लक्ष्य स्ट्रिंग से पैटर्न के सभी मिलानों को खोजना चाहते हैं, तो आपको इसका उपयोग करने की आवश्यकता है re.findall () तरीका।

उपरोक्त कोड चलाने से यह पुष्टि होगी कि पहला यूआरएल मान्य है लेकिन बाकी नहीं हैं।

इसी तरह, आप निम्नलिखित कोड का उपयोग करके जावास्क्रिप्ट में एक URL को मान्य कर सकते हैं:

समारोहValidateURL(यूआरएल) {
अगर(/^(http (s):\/\/.)[-a-zA-Z0-9@:%._\+~#=]{2,256}\.[a-z]{2,6}\b([-a-zA-Z0-9@:%_\+.~#?&//=]*)$/g.test (यूआरएल)) {
कंसोल लॉग ('वैध');
} अन्य {
कंसोल लॉग ('मान्य नहीं है');
}
}

मान्यURL("https://www.linkedin.com/");
मान्यURL("http://apple");
मान्यURL("iwegfuykegf");
मान्यURL("https://w");

दोबारा, इस कोड को चलाने से यह पुष्टि होगी कि पहला URL मान्य है और शेष अमान्य हैं। यह जावास्क्रिप्ट का उपयोग करता है मिलान() रेगुलर एक्सप्रेशन पैटर्न के विरुद्ध लक्ष्य स्ट्रिंग से मिलान करने की विधि।

रेगुलर एक्सप्रेशंस का उपयोग करके महत्वपूर्ण डेटा को मान्य करें

टेक्स्ट को खोजने, मिलान करने या पार्स करने के लिए आप रेगुलर एक्सप्रेशन का उपयोग कर सकते हैं। उनका उपयोग प्राकृतिक भाषा प्रसंस्करण, पैटर्न मिलान और शाब्दिक विश्लेषण के लिए भी किया जाता है।

आप इस शक्तिशाली उपकरण का उपयोग महत्वपूर्ण प्रकार के डेटा जैसे क्रेडिट कार्ड नंबर, उपयोगकर्ता खाता विवरण, आईपी पते आदि को मान्य करने के लिए कर सकते हैं।