Cerebras Systems अब Moonshot AI के 1 ट्रिलियन पैरामीटर ओपन-वेट मिक्सचर-ऑफ-एक्सपर्ट्स मॉडल, Kimi K2.6 को 981 आउटपुट टोकन प्रति सेकंड की गति से सेवा प्रदान कर रहा है। यह संख्या, Artificial Analysis द्वारा स्वतंत्र परीक्षण द्वारा पुष्टि की गई है, जो अगले सर्वश्रेष्ठ GPU क्लाउड प्रदाता की तुलना में 6.7 गुना तेज है।
संदर्भ के लिए, माध्यिका निष्कर्ष प्रदाता लगभग 23 गुना धीमा होता है।
व्यवहार में संख्याएँ वास्तव में कैसी दिखती हैं
एक प्रतिनिधि एजेंटिक कोडिंग लोड पर, 10,000 इनपुट टोकन और 500 आउटपुट टोकन के साथ, सेरेब्रास-सक्षम सेटअप ने 5.6 सेकंड में पूरा उत्तर प्रदान किया।
आधिकारिक Kimi एंडपॉइंट पर इस कार्य को पूरा करने में 163.7 सेकंड लगे। यह एंड-टू-एंड लेटेंसी में 29x का सुधार है।
Kimi K2.6 मॉडल को समझना आवश्यक है। मूनशॉट AI द्वारा विकसित और 20 अप्रैल, 2026 को जारी किया गया, इसमें मल्टीमॉडल और एजेंटिक क्षमताएँ शामिल हैं। हालाँकि कुल पैरामीटर की संख्या 1 ट्रिलियन तक पहुँचती है, MoE आर्किटेक्चर के कारण किसी भी समय केवल 32 अरब पैरामीटर सक्रिय होते हैं।
क्यों वेफर-स्केल आर्किटेक्चर गणित को बदल देता है
सेरेब्रस की मुख्य तकनीक वेफर-स्केल इंजन है, जो एक ऐसा चिप है जो पूरा सिलिकॉन वेफर है। पारंपरिक चिप्स को वेफर्स से छोटे-छोटे डाइ में काटा जाता है। सेरेब्रस कटिंग के हिस्से को छोड़ देता है और पूरे वेफर का उपयोग करता है।
सेरेब्रास दावा करता है कि इसकी बैंडविड्थ NVIDIA की NVLink से 200 गुना अधिक है, जो डेटा सेंटर क्लस्टर में GPU को जोड़ने वाली इंटरकनेक्ट तकनीक है। बड़े मॉडल पर निष्कर्ष निकालने पर, बॉटलनेक लगभग हमेशा कच्ची गणना नहीं, बल्कि मेमोरी बैंडविड्थ होती है। प्रत्येक जेनरेट किए गए टोकन के लिए वजन को मेमोरी से पढ़ा जाना और प्रोसेसर को प्रदान किया जाना आवश्यक है।
एक हाल ही में सार्वजनिक कंपनी जिसके पास कुछ साबित करने को है
सेरेब्रास ने मई 2026 में $95 बिलियन के मूल्यांकन पर अपना आईपीओ पूरा किया, जिससे यह वर्ष का सबसे बड़ा टेक आईपीओ बन गया।
प्रति सेकंड 981 टोकन का परिणाम अब तक का सबसे अधिक स्पष्ट सबूत है कि उस थीसिस का गति वाला हिस्सा सही साबित होता है। सेरेब्रास ने इस बेंचमार्क के साथ विस्तृत मूल्य तुलनाएँ प्रकाशित नहीं की हैं।
एक प्रमुख चीनी एआई प्रयोगशाला के सबसे प्रमुख ओपन-वेट मॉडल को सर्व करके, सेरेब्रास यह दर्शा रहा है कि इसका हार्डवेयर उन मॉडल्स को संभाल सकता है जिन्हें डेवलपर्स वास्तव में उपयोग करना चाहते हैं।
