गूगल ने नए हार्डवेयर के बिना 3x तेज़ स्थानीय AI अनुमान प्रकाशित किया

CoinDesk ने रिपोर्ट दिया:

अपने कंप्यूटर पर कृत्रिम बुद्धिमत्ता मॉडल चलाना अच्छा है—लेकिन हमेशा ऐसा नहीं होता।

गोपनीयता की गारंटी, कोई सदस्यता शुल्क नहीं, और डेटा आपके उपकरण से बाहर नहीं जाता। लेकिन अधिकांश लोगों के लिए, वास्तविकता यह है कि वाक्यों के बीच, कर्सर पांच सेकंड तक चमकता रहता है।

इस बाधा का एक नाम है: निष्पादन गति। यह मॉडल की बुद्धिमत्ता से अलग है और एक हार्डवेयर समस्या है। मानक AI मॉडल प्रत्येक शब्द टुकड़े (जिसे "टोकन" कहा जाता है) को एक-एक करके उत्पन्न करते हैं, और प्रत्येक टोकन उत्पन्न करने के लिए हार्डवेयर को स्मृति से अरबों पैरामीटर को कॉम्प्यूटेशनल इकाई में स्थानांतरित करना पड़ता है। यह डिज़ाइन स्वयं ही धीमा है। उपभोक्ता स्तरीय हार्डवेयर पर, यह असहनीय है।

अधिकांश लोग छोटे और कम प्रदर्शन वाले मॉडल चलाने या अत्यधिक संपीड़ित संस्करण, जिन्हें क्वांटाइज्ड मॉडल कहा जाता है, चलाने का उपाय करते हैं। दोनों विकल्प पूरी तरह से आदर्श नहीं हैं; वे गति के लिए कुछ गुणवत्ता का त्याग करते हैं। हालाँकि वे चल सकते हैं, लेकिन ये आपके वास्तविक रूप से चाहे गए मॉडल नहीं हैं।

अब गूगल ने एक अलग समाधान पेश किया है। कंपनी ने अपनी Gemma 4 परिवार ओपन मॉडल तकनीक के लिए मल्टी-टोकन प्रेडिक्शन (MTP) ड्राफ्टर जारी किया है—यह तकनीक मॉडल की गुणवत्ता या निष्कर्षण क्षमता को पूरी तरह प्रभावित किए बिना तेजी को तीन गुना तक बढ़ा सकती है।

इस विधि को अनुमानित डिकोडिंग कहा जाता है, और इसकी अवधारणा कई वर्षों से मौजूद है। गूगल के शोधकर्ताओं ने 2022 में एक मूलभूत पेपर प्रकाशित किया था। अब तक, यह विचार केवल तभी प्रमुखता प्राप्त कर पाया है क्योंकि इसे बड़े पैमाने पर चलाने के लिए उपयुक्त आर्किटेक्चर की आवश्यकता होती है।

संक्षेप में, इसका काम करने का तरीका ऐसा है: बजाय इसके कि एक शक्तिशाली बड़ा मॉडल सभी काम अकेले करे, इसे एक छोटे "भविष्यवक्ता" मॉडल के साथ जोड़ा जाता है। भविष्यवक्ता तेज़ और कम लागत वाला होता है—यह एक ही बार में कई टोकन का भविष्यवाणी कर सकता है, और इसमें लगने वाला समय मुख्य मॉडल द्वारा एक टोकन उत्पन्न करने में लगने वाले समय से भी कम होता है। फिर, बड़ा मॉडल सभी भविष्यवाणियों की जांच के लिए केवल एक ही पास से गुजरता है। यदि भविष्यवाणी सही है, तो पूरी अनुक्रम प्राप्त करने की लागत केवल एक ही फॉरवर्ड पास के बराबर होती है।

According to Google "If the target model agrees with the draft, it accepts the entire sequence in a single forward pass—even generating its own additional tokens in the process."

कोई नुकसान नहीं: बड़े मॉडल—जैसे Gemma 4 का 310 अरब घना संस्करण—अभी भी प्रत्येक टोकन की पुष्टि करते हैं, और आउटपुट की गुणवत्ता पूरी तरह समान रहती है। आप केवल धीमे हिस्सों में अव्याप्त कैलकुलेशन क्षमता का उपयोग कर रहे हैं।

Google ने कहा कि स्केच ड्रॉइंग मॉडल और टारगेट मॉडल कुंजी-मूल्य कैश (KV कैश) को साझा करते हैं, जो एक ऐसी मेमोरी संरचना है जो पहले से प्रसंस्कृत संदर्भ को संग्रहीत करती है, इसलिए वे बड़े मॉडल के जाने वाली जानकारी को पुनः गणना करने में समय नहीं बर्बाद करते। मोबाइल और रेज़बरी पाइ उपकरणों के लिए डिज़ाइन किए गए छोटे एज मॉडल के लिए, टीम ने उत्पादन समय को और कम करने के लिए एक कुशल क्लस्टरिंग तकनीक भी विकसित की है।

यह एआई क्षेत्र में समानांतर पाठ उत्पादन के लिए एकमात्र प्रयास नहीं है। विस्तार आधारित भाषा मॉडल—जैसे Inception Labs का Mercury—एक संपूर्ण रूप से अलग दृष्टिकोण अपनाते हैं: वे एक बार में एक टोकन का अनुमान नहीं लगाते, बल्कि शोर से शुरू करके पूरे आउटपुट को दोहराकर अनुकूलित करते हैं। सिद्धांत रूप से यह तेज़ है, लेकिन विस्तार भाषा मॉडल गुणवत्ता में पारंपरिक Transformer मॉडल के साथ प्रतिस्पर्धा नहीं कर सके, इसलिए उन्हें अधिकतर अनुसंधान का विषय माना जाता है, न कि व्यावहारिक उपकरण।

प्रायोगिक डिकोडिंग अलग है क्योंकि यह बुनियादी मॉडल को कोई बदलाव नहीं करती। यह एक सेवा अनुकूलन है, न कि एक आर्किटेक्चर प्रतिस्थापन। आप जिस Gemma 4 संस्करण का उपयोग कर रहे हैं, वह तेज़ हो जाएगा।

वास्तविक प्रभाव वास्तव में महत्वपूर्ण है। गूगल के स्वयं के बेंचमार्क के अनुसार, Nvidia RTX Pro 6000 डेस्कटॉप GPU पर चलने वाले Gemma 4 26B चिप पर MTP ड्राफ्ट सक्षम करने के बाद, प्रति सेकंड टोकन प्रोसेसिंग लगभग दोगुनी हो गई। Apple Silicon चिप पर, 4 से 8 अनुरोधों के बैच आकार से लगभग 2.2 गुना की गति में वृद्धि हुई। हालाँकि, सभी परिदृश्यों में 3 गुना की सीमा प्राप्त नहीं हो सकती, लेकिन यह “कठिन रूप से उपयोगयोग्य” और “पर्याप्त तेज़, व्यावहारिक रूप से उपयोग के लिए” के बीच एक महत्वपूर्ण अंतर है।

संदर्भ महत्वपूर्ण है। जब चीनी मॉडल DeepSeek ने जनवरी 2025 में बाजार को हैरान कर दिया।—एक दिन में निवेडिया के बाजार मूल्य को 600 अरब डॉलर तक घटा दिया—इसकी मुख्य सीख यह है: केवल गणना क्षमता बढ़ाने के बजाय, दक्षता में सुधार का प्रभाव अधिक होता है। अधिक बुद्धिमान तरीके से काम करना केवल हार्डवेयर पर खर्च बढ़ाने से बेहतर है। गूगल का MTP ड्राइंग टूल इस दिशा में एक और कदम है, हालाँकि इसका लक्षित उपयोगकर्ता समूह स्पष्ट रूप से उपभोक्ता है।

वर्तमान में पूरा कृत्रिम बुद्धिमत्ता उद्योग तीन भागों—निष्कर्ष निकालना, प्रशिक्षण और स्मृति—से बना एक त्रिभुज की तरह है। किसी भी क्षेत्र में होने वाली कोई भी क्रांति पूरे पारिस्थितिकी तंत्र पर प्रभाव डालती है। DeepSeek की प्रशिक्षण विधि (कम लागत के हार्डवेयर का उपयोग करके शक्तिशाली मॉडल बनाना) एक उदाहरण है, जबकि Google का ...TurboQuant (गुणवत्ता को कम न करते हुए कृत्रिम बुद्धिमत्ता स्मृति को कैसे संकुचित किया जाए) एक अन्य पेपर है। दोनों पेपर्स ने बाजार में गिरावट का कारण बनी, क्योंकि सभी कंपनियाँ इसके प्रतिक्रिया के तरीके ढूंढ़ने में व्यस्त हैं।

Google ने कहा कि यह चित्रण उपकरण “प्रतिक्रिया गति में सुधार कर सकता है: निकट-वास्तविक समय चैट, अनुभवजन्य ध्वनि अनुप्रयोगों और प्रॉक्सी कार्यप्रवाहों की देरी को काफी कम करता है” — ऐसे कार्यों के लिए निम्न देरी आवश्यक होती है ताकि वे वास्तव में कार्य कर सकें।

उपयोग के मामले तुरंत स्पष्ट हैं: एक ऐसा स्थानीय कोड सहायक जो देरी न करे; एक वॉइस इंटरफेस जो आप अपना प्रश्न भूलने से पहले ही प्रतिक्रिया दे सके; एक बुद्धिमान कार्यप्रवाह जो तीन सेकंड का इंतजार किए बिना कदम पूरा कर सके। ये सब कुछ आपके पहले से मौजूद हार्डवेयर पर संभव है।

MTP ड्राफ्ट अब लाइव है 拥抱脸 वे Apache 2.0 लाइसेंस के तहत Kaggle और Ollama के साथ संगत हैं। वे बिना किसी अतिरिक्त सेटअप के vLLM, MLX, SGLang और Hugging Face Transformers को सपोर्ट करते हैं।