Cohere ने अपना पहला ओपन-सोर्स एजेंटिक कोडिंग मॉडल जारी किया है, और इसकी आर्किटेक्चर आपको बता देती है कि एंटरप्राइज AI की दौड़ कहाँ जा रही है। North Mini Code 1.0, एक 30 बिलियन पैरामीटर मिक्सचर-ऑफ-एक्सपर्ट्स मॉडल, 9 जून को Apache 2.0 लाइसेंस के तहत लॉन्च किया गया, जिससे यह Hugging Face पर किसी भी व्यक्ति के लिए मुफ्त उपलब्ध है, जो किसी और के क्लाउड को फोन किए बिना एक क्षमताशाली कोडिंग सहायक चलाना चाहता है।
मॉडल ने कृत्रिम विश्लेषणात्मक बुद्धिमत्ता सूचकांक पर 27.6 का स्कोर प्राप्त किया, जो AI मॉडलों की क्षमताओं की तुलना करने के लिए मानकीकरण का प्रयास करता है।
इसे काम करने वाला MoE ट्रिक
नॉर्थ मिनी कोड प्रत्येक क्वेरी को बड़े मॉडल के भीतर छोटे, विशेषज्ञ "नेटवर्क" के समूह में रूट करता है, जिसमें कुल 30 अरब पैरामीटर हैं, लेकिन किसी भी समय केवल 3 अरब सक्रिय होते हैं, जिससे एक घने 30B मॉडल की तुलना में निष्पादन लागत बहुत कम हो जाती है।
मॉडल 256K टोकन की संदर्भ लंबाई का समर्थन करता है और 64K टोकन तक के आउटपुट का उत्पादन कर सकता है। इन संख्याओं को समझने के लिए, 256K टोकन लगभग एक मध्यम आकार के कोडबेस को मॉडल को देने और उससे फाइलों, फंक्शन्स और निर्भरताओं के बीच संबंधों को समझने के लिए कहने के समान है। 64K आउटपुट सीमा का अर्थ है कि यह एक ही पास में काफी बड़े कोड ब्लॉक्स का उत्पादन कर सकता है, बजाय डेवलपर्स को कई छोटे उत्तरों को जोड़ने की आवश्यकता के।
कोहेर के सह-संस्थापक निक फ्रोस्ट ने लॉन्च से कुछ दिन पहले सोशल मीडिया पर मॉडल का टीज़र दिया, और प्रारंभिक समुदाय तक पहुँच लगभग 6-7 जून के आसपास शुरू हुई, जबकि पूर्ण सार्वजनिक रिलीज 9 जून को हुई।
क्यों ओपन-सोर्स, और क्यों अब
Apache 2.0 लाइसेंस ओपन-सोर्स के लिए इतना अनुमतिशील है कि कंपनियाँ बिना लाइसेंसिंग की परेशानी के मॉडल को संशोधित, डिप्लॉय और यहाँ तक कि व्यावसायिक रूप से उपयोग कर सकती हैं। एक वित्तीय संस्थान के उद्योग CTO के लिए, जिन्हें कॉम्प्लायंस ने बताया है कि कोई भी स्वामित्व वाला डेटा भवन से बाहर नहीं जाएगा, यही वह मॉडल है जो वास्तव में कानूनी समीक्षा से गुजर पाता है।
यह रिलीज 20 मई को Cohere द्वारा लॉन्च किए गए अपने पिछले मॉडल Command A+ के बाद तीन सप्ताह से कम समय में आई है। Command A+ को Artificial Analysis Intelligence Index पर 37 का स्कोर मिला है। यह गति सुझाती है कि कंपनी अपनी रिलीज अवधि को तेज कर रही है।
इसका निवेशकों और व्यापक बाजार के लिए क्या अर्थ है
30B कुल, 3B सक्रिय पैरामीटर स्प्लिट का अर्थ है कि संगठन इसे एक तुलनात्मक घने मॉडल की तुलना में काफी कम हार्डवेयर पर चला सकते हैं, जिससे उन GPU आवश्यकताओं में कमी आ सकती है जिन्होंने उद्यमिक एआई अपनाने को महंगा और लॉजिस्टिकल रूप से कठिन बना दिया है।
AI क्षेत्र को देख रहे किसी भी व्यक्ति के लिए व्यापक प्रश्न यह है कि विशेषज्ञ कोडिंग मॉडल एक या दो विजेताओं के चारों ओर संकलित हो जाएंगे या फिर विभाजित रहेंगे। North Mini Code की 256K संदर्भ खिड़की और 64K आउटपुट लंबाई से सूचित होता है कि Cohere एजेंटिक वर्कफ्लो की ओर इशारा कर रहा है, जहां AI मॉडल केवल कोड की एक पंक्ति को स्वचालित रूप से पूरा करने के बजाय पूरे सॉफ्टवेयर इंजीनियरिंग कार्यों की योजना बनाते हैं, निष्पादित करते हैं और दोहराते हैं।
