Một mô hình AI với một nghìn tỷ tham số vừa được chạy trên card đồ họa mà hầu hết người chơi game sẽ coi là mức trung bình.
Một người đam mê AI Trung Quốc có tên APFrisco đã trình diễn mô hình Kimi K2.5 của Moonshot AI, một mô hình ngôn ngữ lớn kiểu Mixture-of-Experts (MoE) với tổng cộng 1 nghìn tỷ tham số, chạy trên một GPU Nvidia RTX 3060 duy nhất kết hợp với 768 GB bộ nhớ bền Intel Optane. Thiết lập này đạt khoảng bốn token mỗi giây, chậm so với tiêu chuẩn sản xuất nhưng đáng kinh ngạc xét đến phần cứng được sử dụng.
Cách một GPU cấp trung xử lý một nghìn tỷ tham số
Kimi K2.5 thực tế không kích hoạt toàn bộ 1 nghìn tỷ tham số cùng một lúc. Đối với mỗi token được tạo ra, chỉ có 32 tỷ tham số được kích hoạt. Phần còn lại nằm im, chờ đến lượt.
Ngay cả với thủ thuật hiệu quả đó, mô hình vẫn cực kỳ lớn. Phiên bản đầy đủ Kimi K2.5 nặng khoảng 630 GB. Các phiên bản đã lượng tử hóa, vốn nén độ chính xác của mô hình để giảm yêu cầu bộ nhớ, vẫn chiếm khoảng 381 GB. Đó là lý do APFrisco cần 768 GB bộ nhớ bền Intel Optane: không có thiết lập RAM tiêu dùng thông thường nào có thể xử lý được dung lượng lớn như vậy.
Optane PMem DIMMs là một lựa chọn thú vị. Intel đã ngừng dòng sản phẩm Optane, nghĩa là các mô-đun này hiện nay về cơ bản là phần cứng lỗi thời đang lưu thông trên thị trường thứ cấp. Chúng chậm hơn DRAM truyền thống nhưng rẻ hơn đáng kể mỗi gigabyte, khiến chúng trở thành giải pháp phi truyền thống nhưng lại khá thực tế để tải các mô hình khổng lồ vốn đòi hỏi cơ sở hạ tầng cấp doanh nghiệp.
RTX 3060 được ra mắt đầu năm 2021 với 12 GB VRAM. Nó được thiết kế cho chơi game 1080p và các tác vụ sáng tạo nhẹ, không phải để chạy các mô hình AI tiên tiến.
Các bản triển khai điển hình của Kimi K2.5 trông như thế nào
Suy luận hiệu năng cao cho Kimi K2.5 thường nhắm đến các cấu hình với tối đa 8 GPU cao cấp. Những thiết lập này mang lại tốc độ từ 10 đến hơn 300 token mỗi giây.
Bản trình diễn đã được chia sẻ trên cộng đồng r/LocalLLaMA của Reddit và sau đó được Tom’s Hardware đưa tin.
Kimi K2.5 được phát hành vào ngày 27 tháng 1 năm 2026 bởi Moonshot AI. Nó sở hữu khả năng đa mô态 và được huấn luyện trên khoảng 15 nghìn tỷ token hình ảnh và văn bản kết hợp. Đây là mô hình mở trọng số, nghĩa là bất kỳ ai cũng có thể tải về và chạy nó, chính điều này đã làm cho thí nghiệm của APFrisco trở nên khả thi.
