कई वर्षों तक, बड़े भाषा मॉडल एक बहुत तेज टाइपिस्ट की तरह काम करते रहे: एक शब्द एक समय में, बाएं से दाएं, पीछे मुड़कर नहीं देखते। DiffusionGemma इस प्लेबुक को पूरी तरह से निकाल देता है। यह ओपन मॉडल डिफ्यूजन तकनीकों का उपयोग करके पूरे टेक्स्ट ब्लॉक्स को एक साथ उत्पन्न करता है, जिससे पारंपरिक स्वयं-पुनर्उत्पादन मॉडल की तुलना में उत्पादन गति चार गुना तक तेज होती है।
DiffusionGemma वास्तव में कैसे काम करता है
पारंपरिक भाषा मॉडल अनुक्रमिक रूप से पाठ उत्पन्न करते हैं। प्रत्येक टोकन (लगभग एक शब्द या शब्द का टुकड़ा) एक के बाद एक उत्पन्न किया जाता है, जिसमें प्रत्येक नया टोकन उससे पहले की सब कुछ पर निर्भर करता है।
DiffusionGemma, चित्र उत्पादन को क्रांतिकारी बनाने वाली तकनीकों के ही परिवार से उधार लेता है। डिफ़्यूज़न मॉडल शोर से शुरू होते हैं और इसे क्रमिक रूप से सुसंगठित आउटपुट में बदल देते हैं। पाठ पर लागू करने पर, इसका मतलब है कि मॉडल एक साथ प्रतिक्रिया के कई हिस्सों पर काम कर सकता है, बजाय अगले शब्द पर जाने से पहले प्रत्येक शब्द को पूरा होने का इंतजार करने के।
मूल्यांकनों में, DiffusionGemma ने लगभग 1,479 टोकन प्रति सेकंड की नमूना गति प्राप्त की है। यह 4x गति में सुधार केवल एक सैद्धांतिक सीमा नहीं है। यह एक मापा गया बेंचमार्क है।
चूंकि डिफ्यूजन मॉडल आउटपुट को प्रत्येक टोकन को स्थायी रूप से निर्धारित किए बिना बार-बार सुधारते हैं, इसलिए डिफ्यूजनGemma पीढ़ी प्रक्रिया के दौरान ही त्रुटियों को समायोजित और ठीक कर सकता है। पारंपरिक मॉडलों को ऐसी सुविधा नहीं मिलती। एक बार शब्द उत्पन्न हो जाने के बाद, वह स्थायी हो जाता है, और कोई भी आगे की त्रुटियाँ आगे की ओर फैलती रहती हैं।
हार्डवेयर का पहलू और गूगल डीपमाइंड का संबंध
DiffusionGemma, जो टेक्स्ट जनरेशन के लिए दक्ष डिफ्यूजन-आधारित दृष्टिकोण का नेतृत्व करने वाले Google DeepMind के Gemini Diffusion से प्रेरित है।
DiffusionGemma को NVIDIA प्लेटफॉर्म, जिसमें RTX PRO और DGX सिस्टम शामिल हैं, के लिए विशेष रूप से अनुकूलित किया गया है, जिसका अर्थ है कि डेवलपर्स इस मॉडल को स्थानीय रूप से त्वरित प्रदर्शन के साथ चला सकते हैं और केवल क्लाउड API पर निर्भर नहीं रह सकते।
बेंचमार्क मूल्यांकनों से पता चलता है कि DiffusionGemma बड़े मॉडल्स के समान प्रदर्शन करता है, जबकि अपनी गति के लाभ को बनाए रखता है। संदर्भ के लिए, Gemini Diffusion का आकलित बेंचमार्क पर स्कोर 30.9% है, जबकि Gemini 2.0 Flash-Lite का स्कोर 28.5% है।
इसका AI के क्षेत्र और निवेशकों के लिए क्या अर्थ है
जिन व्यवसायों पर त्वरित पाठ उत्पादन निर्भर करता है, उनके लिए प्रभाव स्पष्ट हैं। सामग्री निर्माण पाइपलाइन, ग्राहक सेवा स्वचालन, कोड उत्पादन उपकरण और किसी भी ऐसा एप्लिकेशन जहाँ लेटेंसी मायने रखती है, वे 4x गति में सुधार से लाभान्वित हो सकते हैं। तेज़ निष्पादन का अर्थ है प्रति क्वेरी कम्प्यूट लागत में कमी, जो AI को स्केल पर डिप्लॉय करने की आर्थिकता पर सीधा प्रभाव डालता है।
मुख्य जोखिम अपनाया जाना है। एक मॉडल नियंत्रित मूल्यांकन में अच्छी तरह से बेंचमार्क कर सकता है और फिर भी वास्तविक दुनिया के अनुप्रयोग की अनियमित, अप्रत्याशित मांगों के साथ संघर्ष कर सकता है। इसके खुला होने और व्यापक रूप से उपलब्ध NVIDIA हार्डवेयर के लिए अनुकूलित होने का तथ्य कम से कम जानकारी प्राप्त करने के दो सामान्य बाधाओं को हटा देता है।
