माइक्रोसॉफ्ट का एज़्यर क्लाउड प्लेटफॉर्म, नवीडिया के साथ गहरी सहयोग के साथ, सबसे बड़े रिपोर्ट किए गए पैमाने पर सबसे तेज़ AI प्रशिक्षण परिणाम प्रकाशित कर चुका है। 18 मार्च, 2025 को घोषित यह उपलब्धि, MLPerf Training v4.1 बेंचमार्क में रिकॉर्ड-सेटिंग प्रदर्शन पर केंद्रित है, जो मशीन लर्निंग हार्डवेयर प्रदर्शन के मापन के लिए व्यापक रूप से मान्यता प्राप्त स्वतंत्र मानक है।
परिणामों के पीछे की कॉन्फ़िगरेशन: 512 Nvidia H200 GPU, जो एक साथ काम कर रहे हैं, जिससे H100 GPU पर बनाए गए पिछले सेटअप की तुलना में 28% प्रदर्शन में सुधार हुआ।
वास्तव में बेंचमार्क क्या दर्शाते हैं
पिछले 2023 के बेंचमार्क में, एज़्योर ने दिखाया कि वह 10,752 H100 GPU पर 175 बिलियन पैरामीटर वाले GPT-3 मॉडल को लगभग 4 मिनट में प्रशिक्षित कर सकता है। नया H200-आधारित कॉन्फ़िगरेशन इस आधार पर बनाया गया है, जिसमें प्रति GPU प्रदर्शन में महत्वपूर्ण सुधार हुआ है, जिससे तुलनात्मक प्रशिक्षण गति प्राप्त करने के लिए आवश्यक हार्डवेयर की मात्रा कम हो गई है।
इन परिणामों के पीछे का पूरा स्टैक केवल नवीनतम GPU स्वैप करने तक सीमित नहीं है। माइक्रोसॉफ्ट ने हार्डवेयर, नेटवर्किंग और सॉफ्टवेयर में एकीकृत नवाचारों का उल्लेख किया। इस सेटअप में Nvidia Quantum InfiniBand नेटवर्किंग का उपयोग किया जाता है, जो वितरित प्रशिक्षण के दौरान GPU के बीच भारी डेटा ट्रांसफ़र की मांगों को पूरा करता है। इसमें Nvidia के माइक्रोसर्विसेज के साथ-साथ Azure की अपनी AI सेवाएं, जिसमें इसका AI Foundry प्लेटफ़ॉर्म शामिल है, शामिल हैं।
इसका उपयोग कौन पहले से कर रहा है और अगला क्या है
ब्लैक फॉरेस्ट लैब्स, जो अपने जनरेटिव इमेज मॉडल्स के लिए जानी जाती है, पहले से ही अपने प्रोजेक्ट्स के लिए Azure के नए GB200 वर्चुअल मशीन्स का उपयोग कर रही है।
इन क्षमताओं को समर्थन देने वाली GPU लाइनअप कई पीढ़ियों को शामिल करती है। Azure वर्तमान में H200, H100 और GB200 श्रृंखला के GPU पर आधारित कॉन्फ़िगरेशन प्रदान करता है। 2025 के अंत में, माइक्रोसॉफ्ट Nvidia के Blackwell Ultra GPUs को एकीकृत करने की योजना बना रहा है, जो तर्क और बहुआयामी AI कार्यभारों में प्रदर्शन को बढ़ावा देने के लिए विशेष रूप से डिज़ाइन किए गए हैं।
