Cohere 剛剛推出了其首個開源代理式編程模型,其架構清楚揭示了企業 AI 競賽的發展方向。North Mini Code 1.0 是一款擁有 300 億參數的專家混合模型,於 6 月 9 日在 Apache 2.0 許可證下發佈,任何人都可以在 Hugging Face 上免費使用,無需將數據發送至他人的雲端即可運行功能強大的編程助手。
該模型在人工分析智慧指數上獲得 27.6 分,這是一個致力於標準化我們跨能力比較 AI 模型的基準。
讓這項技術運作的 MoE 技巧
North Mini Code 將每個查詢路由至較大模型中的一小部分專門的「專家」網絡,總參數為 300 億,但任何時候僅有 30 億個參數處於激活狀態,從而使推理成本遠低於一個密集型 300 億參數模型所需的開銷。
該模型支援 256K 個 token 的上下文長度,並可生成最多 64K 個 token 的輸出。為幫助理解,256K 個 token 大約相當於將整個中型程式碼庫輸入模型,並要求其理解檔案、函數與依賴關係之間的關聯;而 64K 的輸出上限意味著它能一次生成大段程式碼,無需開發者將多個短回應串接起來。
Cohere 的共同創辦人 Nick Frosst 在發佈前幾天於社群媒體上預告了該模型,早期社區訪問於 6 月 6-7 日左右開始,並於 6 月 9 日全面公開發佈。
為何選擇開源,以及為何現在
Apache 2.0 許可證是開源領域最寬鬆的許可證之一,意味著企業可以在無需擔心授權麻煩的情況下修改、部署甚至商業化該模型。對於一家金融機構的企業 CTO 而言,若合規部門已明確規定任何專有數據不得離開公司,這種模型正是能夠順利通過法律審查的類型。
此次發布距離 Cohere 於 5 月 20 日推出其前一代模型 Command A+ 不到三週。Command A+ 在 Artificial Analysis Intelligence 指數中獲得 37 分。這一發布頻率表明公司正在加速其發布計劃。
這對投資者和整體市場意味著什麼
總計 30B、活動參數分拆為 3B,意味著組織無需使用與同等密集模型相當的大量硬體即可運行此模型,可能降低企業採用 AI 所面臨的昂貴且複雜的 GPU 需求。
對於關注人工智慧領域的任何人來說,更廣泛的問題是:專用編碼模型會趨於集中於少數幾家勝出者,還是繼續碎片化?North Mini Code 的 256K 上下文窗口和 64K 輸出長度表明,Cohere 正致力於代理工作流程,其中人工智慧模型不僅僅是自動補全一行代碼,而是規劃、執行並迭代整個軟體工程任務。
