ASCII और यूनिकोड दोनों मानक हैं जो पाठ के डिजिटल प्रतिनिधित्व को संदर्भित करते हैं, विशेष रूप से वर्ण जो पाठ बनाते हैं। हालांकि, दो मानक काफी अलग हैं, जिसमें कई गुण उनके निर्माण के संबंधित आदेश को दर्शाते हैं।
अमेरिका वर्सेस यूनिवर्स
अमेरिकन स्टैंडर्ड कोड फॉर इंफॉर्मेशन इंटरचेंज (ASCII), अनिश्चित रूप से, एक अमेरिकी दर्शकों को पूरा करता है, जो अंग्रेजी वर्णमाला में लिख रहा है। यह गैर-अक्षर से संबंधित है, जैसे कि ए-जेड और ए-जेड, साथ ही कम संख्या में विराम चिह्न और नियंत्रण वर्ण।
विशेष रूप से, अन्य भाषाओं से अपनाए गए ऋण शब्दों का प्रतिनिधित्व करने का कोई तरीका नहीं है, जैसे कि कैफे ASCII में, उच्चारण वर्णों को प्रतिस्थापित करके उन्हें स्पष्ट किए बिना (जैसे, कैफ़े). स्थानीयकृत ASCII एक्सटेंशन विभिन्न भाषाओं की जरूरतों को पूरा करने के लिए विकसित किए गए थे, लेकिन इन प्रयासों ने अंतर को अजीब बना दिया और ASCII की क्षमताओं को स्पष्ट रूप से बढ़ा रहे थे।
इसके विपरीत, यूनिवर्सल कोडेड कैरेक्टर सेट (यूनिकोड) महत्वाकांक्षा पैमाने के विपरीत छोर पर स्थित है। यूनिकोड दुनिया की कई लेखन प्रणालियों को पूरा करने का प्रयास करता है, इस हद तक कि यह प्राचीन भाषाओं और सभी के पसंदीदा प्रतीकों को अभिव्यक्त करती है, इमोजी।
चरित्र सेट या चरित्र एन्कोडिंग?
सरल शब्दों में, एक वर्ण सेट वर्णों का चयन (जैसे, ए-जेड) है, जबकि एक चरित्र एन्कोडिंग एक चरित्र सेट और मूल्य के बीच एक मानचित्रण है जिसे डिजिटल रूप से दर्शाया जा सकता है (उदा। ए = 1, बी = 2)।
ASCII मानक प्रभावी रूप से दोनों है: यह उन वर्णों के समुच्चय को परिभाषित करता है, जो इसका प्रतिनिधित्व करता है और प्रत्येक वर्ण को एक संख्यात्मक मान के लिए मैप करने का एक तरीका है।
इसके विपरीत, यूनिकोड शब्द का इस्तेमाल कई अलग-अलग संदर्भों में अलग-अलग चीजों के लिए किया जाता है। आप इसे एक कैरेक्टर सेट और कई एनकाउंटर को संदर्भित करने के लिए ASCII की तरह एक सर्वव्यापी शब्द के रूप में सोच सकते हैं। लेकिन, क्योंकि कई एनकोडिंग हैं, यूनिकोड शब्द का उपयोग अक्सर वर्णों के समग्र सेट को संदर्भित करने के लिए किया जाता है, बजाय इसके कि वे कैसे मैप किए जाते हैं।
आकार
इसके दायरे के कारण, यूनिकोड ASCII की तुलना में कहीं अधिक पात्रों का प्रतिनिधित्व करता है। मानक ASCII 128 विशिष्ट एनकोड करने के लिए 7-बिट रेंज का उपयोग करता है पात्र. दूसरी ओर, यूनिकोड इतना बड़ा है कि हमें इसके बारे में बात करने के लिए विभिन्न शब्दावली का उपयोग करने की आवश्यकता है!
यूनिकोड 1,111,998 पता योग्य है कोड अंक। एक कोड बिंदु मोटे तौर पर एक चरित्र के लिए आरक्षित स्थान के अनुरूप होता है, लेकिन स्थिति उस समय की तुलना में बहुत अधिक जटिल होती है, जब आप विवरण में देरी करना शुरू करते हैं!
एक अधिक उपयोगी तुलना यह है कि वर्तमान में कितनी स्क्रिप्ट (या लेखन प्रणाली) समर्थित हैं। बेशक, ASCII केवल अंग्रेजी वर्णमाला को संभालती है, अनिवार्य रूप से लैटिन या रोमन लिपि। 2020 में उत्पादित यूनिकोड का संस्करण बहुत आगे जाता है: इसमें कुल 154 लिपियों का समर्थन शामिल है।
भंडारण
ASCII की 7-बिट श्रेणी का अर्थ है कि प्रत्येक वर्ण एक एकल 8-बिट बाइट में संग्रहीत है; अतिरिक्त ASCII में अतिरिक्त बिट का उपयोग नहीं किया जाता है। यह आकार की गणना को तुच्छ बनाता है: पाठ की लंबाई, वर्णों में, फ़ाइल का आकार बाइट्स में है।
आप इसे bash कमांड के निम्नलिखित अनुक्रम से पुष्टि कर सकते हैं। सबसे पहले, हम एक फाइल बनाते हैं जिसमें 12 अक्षर होते हैं:
$ इको-एन 'हैलो, दुनिया'> फू
यह जाँचने के लिए कि पाठ ASCII एन्कोडिंग में है, हम इसका उपयोग कर सकते हैं फ़ाइल आदेश:
$ फ़ाइल फू
foo: ASCII टेक्स्ट, जिसमें कोई लाइन टर्मिनेटर नहीं है
अंत में, बाइट्स की सटीक संख्या प्राप्त करने के लिए, हम फाइल का उपयोग करते हैं स्टेट आदेश:
$ स्टेट -f% z फू
12
चूंकि यूनिकोड मानक वर्णों की अधिक से अधिक रेंज से संबंधित है, इसलिए यूनिकोड फ़ाइल स्वाभाविक रूप से अधिक संग्रहण स्थान लेती है। वास्तव में एन्कोडिंग पर कितना निर्भर करता है।
पहले से आदेशों के एक ही सेट को दोहराते हुए, एक वर्ण का उपयोग करना जिसे ASCII में प्रतिनिधित्व नहीं किया जा सकता है, निम्नलिखित देता है:
$ इको-एन '€'> फू
$ फ़ाइल फू
फू: यूटीएफ -8 यूनिकोड पाठ, जिसमें कोई लाइन टर्मिनेटर नहीं है
$ स्टेट -f% z फू
3
वह एकल वर्ण यूनिकोड फ़ाइल में 3 बाइट्स रखता है। ध्यान दें कि एक ASCII फ़ाइल चुने हुए चरित्र (€) को संग्रहीत नहीं कर सकता है क्योंकि bash स्वचालित रूप से UTF-8 फ़ाइल बनाता है। यूटीएफ -8 यूनिकोड के लिए अब तक का सबसे आम चरित्र एन्कोडिंग है; UTF-16 और UTF-32 दो वैकल्पिक एनकोडिंग हैं, लेकिन उनका उपयोग बहुत कम किया जाता है।
UTF-8 एक चर-चौड़ाई एन्कोडिंग है, जिसका अर्थ है कि यह विभिन्न कोड बिंदुओं के लिए विभिन्न मात्रा में भंडारण का उपयोग करता है। प्रत्येक कोड बिंदु एक और चार बाइट्स के बीच में होगा, इस इरादे के साथ कि अधिक सामान्य पात्रों को कम स्थान की आवश्यकता होती है, एक प्रकार का अंतर्निहित संपीड़न प्रदान करता है। नुकसान यह है कि किसी दिए गए पाठ की लंबाई या आकार की आवश्यकताओं को निर्धारित करना अधिक जटिल हो जाता है।
ASCII यूनिकोड है, लेकिन यूनिकोड ASCII नहीं है
पिछड़े संगतता के लिए, पहले 128 यूनिकोड कोड अंक ASCII वर्णों के बराबर होते हैं। चूंकि यूटीएफ -8 इनमें से प्रत्येक अक्षर को एक बाइट के साथ एन्कोड करता है, इसलिए कोई भी ASCII पाठ भी UTF-8 टेक्स्ट है। यूनिकोड ASCII का सुपरसेट है।
हालाँकि, जैसा कि ऊपर दिखाया गया है, कई यूनिकोड फ़ाइलों का उपयोग ASCII संदर्भ में नहीं किया जा सकता है। कोई भी वर्ण जो आउट-ऑफ-बाउंड है, अप्रत्याशित तरीके से प्रदर्शित किया जाएगा, अक्सर प्रतिस्थापित पात्रों के साथ जो कि इच्छित उद्देश्य से पूरी तरह से अलग होते हैं।
आधुनिक उपयोग
अधिकांश उद्देश्यों के लिए, एएससीआईआई को बड़े पैमाने पर एक विरासत मानक माना जाता है। यहां तक कि ऐसी स्थितियों में जो केवल लैटिन लिपि का समर्थन करते हैं - जहां यूनिकोड की जटिलताओं के लिए पूर्ण समर्थन है अनावश्यक, उदाहरण के लिए- आमतौर पर UTF-8 का उपयोग करना और इसके ASCII का लाभ उठाना अधिक सुविधाजनक है अनुकूलता।
विशेष रूप से, वेब पेजों को UTF-8 का उपयोग करके सहेजा और प्रसारित किया जाना चाहिए, जो HTML5 के लिए डिफ़ॉल्ट है। यह पहले के वेब के विपरीत है, जो कि ASCII में डिफ़ॉल्ट रूप से निपटा था, इससे पहले कि लैटिन 1 द्वारा सुपरसीड किया गया था।
एक मानक जो बदल रहा है
एएससीआईआई का अंतिम संशोधन 1986 में हुआ।
इसके विपरीत, यूनिकोड को लगातार अपडेट किया जाता है। नई स्क्रिप्ट, पात्र, और, विशेष रूप से, नए इमोजी नियमित रूप से जोड़े जाते हैं। इन आबंटित के केवल एक छोटे से अंश के साथ, पूर्ण चरित्र सेट भविष्य के लिए विकसित होने और बढ़ने की संभावना है।
सम्बंधित: 100 सबसे लोकप्रिय Emojis समझाया
बहुत सारे इमोजी हैं, यह जानना मुश्किल हो सकता है कि इन सभी का क्या मतलब है। यहाँ सबसे लोकप्रिय emojis समझाया गया है।
ASCII बनाम यूनिकोड
ASCII ने कई दशकों तक अपने उद्देश्य की सेवा की, लेकिन यूनिकोड ने अब इसे प्रभावी रूप से विरासत प्रणालियों के अलावा सभी व्यावहारिक उद्देश्यों के लिए बदल दिया है। यूनिकोड बड़ा है और इसलिए अधिक अभिव्यंजक है। यह दुनिया भर में, सहयोगी प्रयास का प्रतिनिधित्व करता है और कुछ जटिलता की कीमत पर कहीं अधिक लचीलापन प्रदान करता है।
एएससीआईआई पाठ गूढ़ प्रतीत होता है, लेकिन इंटरनेट के आसपास इसके कई उपयोग हैं।
- प्रौद्योगिकी समझाया
- emojis
- शब्दजाल
- वेब कल्चर
- यूनिकोड
बॉबी एक प्रौद्योगिकी उत्साही है जिसने अधिकांश दो दशकों के लिए सॉफ्टवेयर डेवलपर के रूप में काम किया है। वह गेमिंग के बारे में भावुक है, स्विच प्लेयर मैगज़ीन में समीक्षा संपादक के रूप में काम कर रहा है, और ऑनलाइन प्रकाशन और वेब विकास के सभी पहलुओं में डूबा हुआ है।
हमारे न्यूज़लेटर की सदस्यता लें
टेक टिप्स, समीक्षा, मुफ्त ईबुक और विशेष सौदों के लिए हमारे न्यूज़लेटर में शामिल हों!
एक और कदम…!
कृपया हमें आपके द्वारा भेजे गए ईमेल में अपने ईमेल पते की पुष्टि करें।