Cohere vừa ra mắt mô hình lập trình agentic mã nguồn mở đầu tiên của mình, và kiến trúc này cho bạn thấy rõ hướng đi của cuộc đua AI doanh nghiệp. North Mini Code 1.0, một mô hình Mixture-of-Experts với 30 tỷ tham số, đã được ra mắt vào ngày 9 tháng 6 dưới giấy phép Apache 2.0, giúp nó có sẵn miễn phí trên Hugging Face cho bất kỳ ai muốn chạy một trợ lý lập trình mạnh mẽ mà không cần kết nối về đám mây của bên thứ ba.
Mô hình đạt 27,6 trên Chỉ số Trí tuệ Phân tích Nhân tạo, một tiêu chuẩn nhằm chuẩn hóa cách chúng ta so sánh các mô hình AI qua các khả năng khác nhau.
Mẹo MoE giúp điều này hoạt động
North Mini Code chuyển mỗi truy vấn đến một tập hợp nhỏ các mạng chuyên gia “chuyên biệt” trong mô hình lớn hơn, với tổng cộng 30 tỷ tham số nhưng chỉ có 3 tỷ tham số hoạt động cùng một lúc, giúp giảm đáng kể chi phí suy luận so với yêu cầu của một mô hình dày đặc 30B.
Mô hình hỗ trợ độ dài ngữ cảnh 256K token và có thể tạo đầu ra lên đến 64K token. Để đặt những con số này vào bối cảnh, 256K token tương đương với việc cung cấp toàn bộ một bộ mã nguồn cỡ trung bình cho mô hình và yêu cầu nó hiểu các mối quan hệ giữa các tệp, hàm và phụ thuộc. Giới hạn đầu ra 64K cho phép nó tạo ra các khối mã lớn trong một lần thực hiện, thay vì yêu cầu các nhà phát triển phải nối nhiều phản hồi ngắn lại với nhau.
Nick Frosst, đồng sáng lập Cohere, đã hé lộ mô hình trên mạng xã hội vài ngày trước khi ra mắt, với quyền truy cập sớm cho cộng đồng bắt đầu vào khoảng ngày 6-7 tháng Sáu, trước khi phát hành chính thức cho công chúng vào ngày 9 tháng Sáu.
Tại sao mở nguồn, và tại sao bây giờ
Giấy phép Apache 2.0 là một trong những giấy phép mở rộng nhất, cho phép các công ty sửa đổi, triển khai và thậm chí thương mại hóa mô hình mà không gặp rắc rối về cấp phép. Đối với một CTO doanh nghiệp tại một tổ chức tài chính, người đã được bộ phận tuân thủ thông báo rằng không có dữ liệu sở hữu nào được phép rời khỏi tòa nhà, đây chính là loại mô hình có thể vượt qua được vòng đánh giá pháp lý.
Phiên bản này được ra mắt chưa đầy ba tuần sau khi Cohere ra mắt Command A+, mô hình trước đó, vào ngày 20 tháng Năm. Command A+ đạt điểm 37 trên chỉ số Trí tuệ Phân tích Nhân tạo. Tốc độ này cho thấy công ty đang tăng tốc lịch trình ra mắt.
Điều này có nghĩa gì đối với các nhà đầu tư và thị trường rộng lớn hơn
Tổng cộng 30B, chia tham số 3B hoạt động có nghĩa là các tổ chức có thể chạy mô hình này trên phần cứng ít hơn đáng kể so với mô hình dày đặc tương đương, có thể giảm nhu cầu GPU đã khiến việc áp dụng AI doanh nghiệp trở nên đắt đỏ và phức tạp về mặt hậu cần.
Câu hỏi rộng hơn dành cho bất kỳ ai theo dõi lĩnh vực AI là liệu các mô hình mã hóa chuyên biệt có sẽ tập trung xung quanh một vài người chiến thắng hay tiếp tục phân mảnh. Cửa sổ ngữ cảnh 256K và độ dài đầu ra 64K của North Mini Code cho thấy Cohere đang nhắm đến các quy trình tác nhân, nơi các mô hình AI không chỉ tự động hoàn thành một dòng mã mà còn lên kế hoạch, thực thi và lặp lại toàn bộ các nhiệm vụ kỹ sư phần mềm.
