एएमडी की इंस्टिंक्ट जीपीयू श्रृंखला कंप्यूटिंग और एआई समुदाय में लोकप्रिय हो रही है। उसकी वजह यहाँ है।
इसमें कोई संदेह नहीं है कि NVIDIA अपनी विभिन्न लोकप्रिय GPU श्रृंखलाओं के साथ समानांतर कंप्यूटिंग स्थान पर हावी है। लेकिन एएमडी के इंस्टिंक्ट एआई त्वरक के साथ दो सबसे नए और सबसे बड़े सुपरकंप्यूटर (फ्रंटियर और एल कैपिटन) को लैस करते हैं। और उनके ओपन-सोर्स ROCm प्लेटफॉर्म के लिए समुदाय का बढ़ता समर्थन, NVIDIA को अभी तक अपना सबसे बड़ा प्रतिद्वंद्वी मिल सकता है।
तो वास्तव में एएमडी के इंस्टिंक्ट एआई त्वरक क्या हैं? उन्हें क्या शक्तिशाली बनाता है, और वे NVIDIA के Tensor GPU से कैसे तुलना करते हैं?
एएमडी इंस्टिंक्ट प्रोसेसर क्या है?
एएमडी के इंस्टिंक्ट प्रोसेसर एंटरप्राइज़-ग्रेड हार्डवेयर हैं जिनका उपयोग उच्च-प्रदर्शन कंप्यूटिंग (एचपीसी) और एआई-त्वरित प्रसंस्करण के लिए किया जाता है। नियमित, उपभोक्ता-ग्रेड जीपीयू के विपरीत, इंस्टिंक्ट जीपीयू एआई सीखने और अन्य उच्च-प्रदर्शन कार्यों को सॉफ्टवेयर और हार्डवेयर नवाचारों के माध्यम से बेहतर ढंग से संभालने के लिए विशिष्ट हैं।
एएमडी की जीपीयू की इंस्टिंक्ट श्रृंखला का उपयोग पहले सुपरकंप्यूटर को एक्सास्केल बैरियर को तोड़ने के लिए किया गया था, प्रति सेकंड डबल-सटीक संचालन में 1.1 ईएफएलओपी पर प्रदर्शन किया। इंस्टिंक्ट जीपीयू का उपयोग करने वाले सुपरकंप्यूटर वर्तमान में कैंसर उपचार, टिकाऊ ऊर्जा और जलवायु परिवर्तन पर शोध करने के लिए उपयोग किए जा रहे हैं।
इंस्टिंक्ट प्रोसेसर एआई और एचपीसी को कैसे तेज करते हैं
के लिए दुनिया के सबसे शक्तिशाली मेनस्ट्रीम सर्वर और सुपर कंप्यूटर एक्सास्केल-स्तर के प्रसंस्करण को प्राप्त करने के लिए, एएमडी के इंस्टिंक्ट त्वरक को कई तकनीकी उन्नयन और नवाचारों से सुसज्जित किया जाना था।
आइए एएमडी इंस्टिंक्ट जीपीयू पर उपयोग की जाने वाली कुछ नई और अद्यतन तकनीक पर चर्चा करें।
1. कंप्यूट डीएनए (सीडीएनए)
हाल के एएमडी इंस्टिंक्ट त्वरक (एमआई100 से शुरू) ने कंपनी के सीडीएनए आर्किटेक्चर को नियोजित किया है।
सीडीएनए मुख्य रूप से उनके मैट्रिक्स कोर प्रौद्योगिकी के माध्यम से समानांतर प्रसंस्करण, मेमोरी पदानुक्रम और अनुकूलित गणना प्रदर्शन जैसी सुविधाओं पर ध्यान केंद्रित करता है। यहां तक कि एचपीसी और एआई या मशीन लर्निंग जो एकल सर्वर पर चलता है, सीडीएनए के साथ-साथ विशाल एक्सास्केल कंप्यूटर द्वारा समर्थित हो सकता है।
एएमडी की मैट्रिक्स कोर तकनीक मिश्रित-सटीक संचालन का समर्थन करके एआई सीखने को गति देती है। विभिन्न परिशुद्धता पर गणना करने की क्षमता इंस्टिंक्ट जीपीयू को आवश्यक सटीकता के स्तर के आधार पर मैट्रिक्स संचालन की कुशलता से गणना करने की अनुमति देती है।
सबसे लोकप्रिय संगणना सटीक स्वरूपों में FP64, FP32, FP16, BF16 और INT8 शामिल हैं। FP का मतलब फ्लोटिंग पॉइंट, BF का ब्रेन फ्लोटिंग पॉइंट और INT का मतलब पूर्णांक है। प्रारूप के अनुरूप संख्या जितनी अधिक होगी, गणना उतनी ही सटीक होगी। 64-बिट पर ऑपरेटिंग को डबल-प्रिसिजन के रूप में जाना जाता है। 32-बिट के साथ यह एकल-सटीक है, 16-बिट यह आधा-सटीक है, और इसी तरह।
चूंकि गहन शिक्षण मॉडल के प्रशिक्षण के एक बड़े हिस्से में मैट्रिक्स की गणना करने की क्षमता होने के कारण अधिक सटीकता की आवश्यकता नहीं होती है अनुमान लगाने के लिए आधी-परिशुद्धता या यहां तक कि चौथाई-परिशुद्धता पर संचालन से कार्यभार काफी कम हो जाता है, इस प्रकार एआई में तेजी आती है सीखना।
2. उच्च बैंडविड्थ मेमोरी (HBM)
प्रत्येक एएमडी इंस्टिंक्ट एआई त्वरक 880 मैट्रिक्स कोर के साथ आता है। एएमडी के मैट्रिक्स कोर प्रोसेसर के साथ 383 टीएफएलओपी की अर्ध-सटीक गणना करने में सक्षम, अल्ट्राफास्ट मेमोरी होना आवश्यक है। एएमडी की नवीनतम इंस्टिंक्ट पेशकश सामान्य डीडीआर4 या डीडीआर5 रैम के बजाय उच्च बैंडविड्थ मेमोरी (एचबीएम) से सुसज्जित है।
पारंपरिक मेमोरी के विपरीत, एचबीएम एक 3डी स्टैक्ड आर्किटेक्चर के रूप में जाना जाने वाला उपयोग करता है। इस प्रकार की वास्तुकला एक डिजाइन दृष्टिकोण को संदर्भित करती है जहां DRAM मर जाता है एक दूसरे के ऊपर खड़ी खड़ी होती है। यह डाई को ऊर्ध्वाधर और क्षैतिज दोनों अक्षों पर ढेर करने की अनुमति देता है, इसलिए इसे 3डी स्टैकिंग कहा जाता है।
इस 3डी स्टैकिंग तकनीक के साथ, एचबीएम में प्रति मॉड्यूल कुछ सौ गीगाबाइट जितनी बड़ी भौतिक मेमोरी क्षमता हो सकती है, जबकि डीआरआर5 प्रति मॉड्यूल केवल दस गीगाबाइट तक ही कर सकता है। क्षमता के अलावा, एचबीएम को अंतरण दर और नियमित डीडीआर मेमोरी की तुलना में बेहतर बिजली दक्षता के मामले में उच्च प्रदर्शन के लिए भी जाना जाता है।
3. अनंत कपड़ा
इंस्टिंक्ट जीपीयू में शामिल एक अन्य नवीनता एएमडी की इन्फिनिटी फैब्रिक तकनीक है। इन्फिनिटी फैब्रिक एक प्रकार का इंटरकनेक्ट सिस्टम है जो सीपीयू और जीपीयू को स्मार्ट डायनेमिक तरीके से जोड़ता है। यह घटकों को एक दूसरे के साथ कुशलता से संवाद करने की अनुमति देता है।
इन्फिनिटी फैब्रिक के साथ, घटकों को एक नियमित बस के साथ जोड़ने के बजाय, घटक अब जाल जैसे नेटवर्क में जुड़े हुए हैं जहां बैंडविथ प्रति सेकंड कई सौ गीगाबाइट तक हो सकते हैं।
जाल जैसे इंटरकनेक्ट के अलावा, इन्फिनिटी फैब्रिक गतिशील रूप से प्रत्येक डाई में एम्बेडेड सेंसर का भी उपयोग करता है नियंत्रण आवृत्ति, डेटा अंतरण दर, और अन्य अनुकूली व्यवहार, प्रदर्शन को अनुकूलित करना और कम करना विलंबता।
4. आरओसीएम विकास मंच
NVIDIA का CUDA (कंप्यूट यूनिफाइड डिवाइस आर्किटेक्चर) AI मॉडल के प्रशिक्षण के लिए सबसे व्यापक रूप से इस्तेमाल किया जाने वाला डेवलपमेंट प्लेटफॉर्म है। CUDA के साथ समस्या यह है कि यह केवल NVIDIA GPUs के साथ काम करता है। यह एक प्रमुख कारण है कि NVIDIA के पास HPC और AI GPU त्वरक के लिए बाजार में भारी बहुमत है।
एएमडी को एचपीसी और एआई बाजार का एक बड़ा हिस्सा प्राप्त करने की इच्छा के साथ, उन्हें अपना खुद का प्लेटफॉर्म आरओसीएम (राडॉन ओपन कंप्यूट) विकसित करना पड़ा। आरओसीएम एक ओपन-सोर्स सॉफ्टवेयर प्लेटफॉर्म है जो इंस्टिंक्ट जीपीयू को एआई त्वरक के रूप में उपयोग करने की अनुमति देता है।
हालांकि जरूरी नहीं कि इंस्टिंक्ट हार्डवेयर का हिस्सा हो, जब जीपीयू की इंस्टिंक्ट लाइन के अस्तित्व की बात आती है तो आरओसीएम मौलिक है। ROCm, डेवलपर्स और के साथ शोधकर्ताओं को उनके साथ विकसित करने के लिए ROCm टूल, कंपाइलर, कर्नेल ड्राइवर, पुस्तकालयों की एक पूरी मेजबानी, और TensorFlow और PyTorch जैसे ढांचे तक पहुंच प्राप्त होती है। पसंदीदा एआई प्रोग्रामिंग भाषा।
राडॉन जीपीयू एआई एक्सेलेरेटर्स की तुलना में इंस्टिंक्ट एआई एक्सेलेरेटर्स कैसे करते हैं?
एएमडी उद्यम के लिए जीपीयू की अपनी इंस्टिंक्ट लाइनअप और नियमित उपभोक्ताओं के लिए राडॉन जीपीयू प्रदान करता है। जैसा कि पहले चर्चा की गई थी, इंस्टिंक्ट जीपीयू एएमडी के सीडीएनए आर्किटेक्चर, एचबीएम और इन्फिनिटी फैब्रिक इंटरकनेक्ट का उपयोग करता है। इसके विपरीत, Radeon AMD के RDNA आर्किटेक्चर, DDR6 मेमोरी और इन्फिनिटी कैश का उपयोग करता है।
हालांकि कम सक्षम, एआई त्वरक की राडेन श्रृंखला अभी भी एक या दो एआई त्वरक कोर प्रति गणना इकाई को लागू करने के लिए एक पंच पैक करती है। नवीनतम राडॉन आरएक्स7900 एक्सटी जीपीयू प्रति कंप्यूट यूनिट में दो एआई एक्सेलरेटर कोर हैं, जो पीक हाफ-प्रिसिजन के 103 टीएफएलओपी और पीक सिंगल-प्रिसिजन कंप्यूट के 52 टीएफएलओपी की अनुमति देता है।
जबकि जीपीयू की इंस्टिंक्ट श्रृंखला एलएलएम और एचपीसी के लिए बेहतर अनुकूल है, राडॉन एआई त्वरक का उपयोग पूर्व-प्रशिक्षित मॉडल, अनुमान लगाने और ग्राफिक-गहन कार्यों को ठीक करने के लिए किया जा सकता है।
एएमडी इंस्टिंक्ट बनाम। एनवीडिया टेंसर
एक के अनुसार ट्रेंडफोर्स सर्वेएनवीआईडीए के पास सर्वर जीपीयू के लिए 80% बाजार हिस्सेदारी है, जबकि एएमडी के पास केवल 20% है। NVIDIA की यह भारी सफलता इसलिए है क्योंकि वे एक ऐसी कंपनी हैं जो GPU डिज़ाइन और असेंबली में माहिर हैं। यह उन्हें उल्लेखनीय रूप से बेहतर प्रदर्शन करने वाले जीपीयू डिजाइन करने की अनुमति देता है, जो अन्य पेशकशों से बेजोड़ है।
आइए AMD के Instinct MI205X और NVIDIA के H100SXM5 के विनिर्देशों का उपयोग करके तुलना करें एएमडी की आधिकारिक वेबसाइट और NVIDIA की अपनी डेटाशीट:
जीपीयू मॉडल |
एफपी64 (टीएफएलओपी) |
FP32 (TFLOPs) |
FP16 (TFLOPs) |
INT8 (टीएफएलओपी) |
---|---|---|---|---|
एएमडी इंस्टिंक्ट MI250X |
30.0 |
60.0 |
1000 |
2000 |
एनवीडिया एच100एसएक्सएमएस |
47.9 |
95.7 |
383.2 |
383 |
जैसा कि आप तालिका में देख सकते हैं, AMD का MI250X डबल-परिशुद्धता और अर्ध-परिशुद्धता के मामले में बेहतर प्रदर्शन करता है कंप्यूटेशंस, जबकि NVIDIA का H100SXMS हाफ-प्रिसिजन और क्वार्टर-प्रिसिजन मैट्रिक्स के मामले में कहीं बेहतर है गणना। यह AMD के MI250X को HPC के लिए बेहतर बनाता है जबकि NVIDIA के H100SXMS को AI सीखने और अनुमान लगाने के साथ।
एएमडी के इंस्टिंक्ट प्रोसेसर का भविष्य
हालाँकि AMD की नवीनतम पेशकश, MI250X, HPC के लिए डिज़ाइन की गई है, उनका आगामी MI300 अधिक AI प्रशिक्षण उन्मुख है। इस एआई त्वरक को एक पैकेज में जीपीयू और सीपीयू को मिलाकर एक एपीयू होने की घोषणा की गई है। यह MI300 को उनके CNDA3 यूनिफाइड मेमोरी APU आर्किटेक्चर का उपयोग करने की अनुमति देता है, जहां GPU और CPU केवल एक मेमोरी का उपयोग करेंगे, जिससे दक्षता बढ़ेगी और कीमत कम होगी।
हालांकि एएमडी आज एआई त्वरक बाजार पर एनवीडिया के साथ प्रतिस्पर्धा नहीं करेगा, एक बार एमआई300 जारी हो जाएगा और आरओसीएम बन जाएगा पॉलिश, एएमडी की इंस्टिंक्ट श्रृंखला एआई त्वरक बाजार के एक महत्वपूर्ण हिस्से को छीनने के लिए पर्याप्त हो सकती है एनवीडिया।