Người yêu thích Trung Quốc chạy Kimi K2.5 với 1 nghìn tỷ tham số trên RTX 3060 với 768GB Intel Optane Memory

iconCryptoBriefing
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Một người đam mê AI Trung Quốc tên APFrisco đã trình diễn Kimi K2.5 của Moonshot AI, một mô hình MoE với 1 nghìn tỷ tham số, chạy trên một GPU RTX 3060 đơn lẻ với 768GB bộ nhớ Intel Optane. Thiết lập này xử lý khoảng bốn token mỗi giây. Tin tức AI + tiền điện tử này nổi bật với một bước đột phá lớn về tin tức trên chuỗi, vì kích thước mô hình vượt quá 630GB. Phần cứng ở mức trung bình, khiến hiệu suất này đặc biệt ấn tượng.

Một mô hình AI với một nghìn tỷ tham số vừa được chạy trên card đồ họa mà hầu hết người chơi game sẽ coi là mức trung bình.

Một người đam mê AI Trung Quốc có tên APFrisco đã trình diễn mô hình Kimi K2.5 của Moonshot AI, một mô hình ngôn ngữ lớn kiểu Mixture-of-Experts (MoE) với tổng cộng 1 nghìn tỷ tham số, chạy trên một GPU Nvidia RTX 3060 duy nhất kết hợp với 768 GB bộ nhớ bền Intel Optane. Thiết lập này đạt khoảng bốn token mỗi giây, chậm so với tiêu chuẩn sản xuất nhưng đáng kinh ngạc xét đến phần cứng được sử dụng.

Cách một GPU cấp trung xử lý một nghìn tỷ tham số

Kimi K2.5 thực tế không kích hoạt toàn bộ 1 nghìn tỷ tham số cùng một lúc. Đối với mỗi token được tạo ra, chỉ có 32 tỷ tham số được kích hoạt. Phần còn lại nằm im, chờ đến lượt.

Quảng cáo

Ngay cả với thủ thuật hiệu quả đó, mô hình vẫn cực kỳ lớn. Phiên bản đầy đủ Kimi K2.5 nặng khoảng 630 GB. Các phiên bản đã lượng tử hóa, vốn nén độ chính xác của mô hình để giảm yêu cầu bộ nhớ, vẫn chiếm khoảng 381 GB. Đó là lý do APFrisco cần 768 GB bộ nhớ bền Intel Optane: không có thiết lập RAM tiêu dùng thông thường nào có thể xử lý được dung lượng lớn như vậy.

Optane PMem DIMMs là một lựa chọn thú vị. Intel đã ngừng dòng sản phẩm Optane, nghĩa là các mô-đun này hiện nay về cơ bản là phần cứng lỗi thời đang lưu thông trên thị trường thứ cấp. Chúng chậm hơn DRAM truyền thống nhưng rẻ hơn đáng kể mỗi gigabyte, khiến chúng trở thành giải pháp phi truyền thống nhưng lại khá thực tế để tải các mô hình khổng lồ vốn đòi hỏi cơ sở hạ tầng cấp doanh nghiệp.

RTX 3060 được ra mắt đầu năm 2021 với 12 GB VRAM. Nó được thiết kế cho chơi game 1080p và các tác vụ sáng tạo nhẹ, không phải để chạy các mô hình AI tiên tiến.

Các bản triển khai điển hình của Kimi K2.5 trông như thế nào

Suy luận hiệu năng cao cho Kimi K2.5 thường nhắm đến các cấu hình với tối đa 8 GPU cao cấp. Những thiết lập này mang lại tốc độ từ 10 đến hơn 300 token mỗi giây.

Bản trình diễn đã được chia sẻ trên cộng đồng r/LocalLLaMA của Reddit và sau đó được Tom’s Hardware đưa tin.

Kimi K2.5 được phát hành vào ngày 27 tháng 1 năm 2026 bởi Moonshot AI. Nó sở hữu khả năng đa mô态 và được huấn luyện trên khoảng 15 nghìn tỷ token hình ảnh và văn bản kết hợp. Đây là mô hình mở trọng số, nghĩa là bất kỳ ai cũng có thể tải về và chạy nó, chính điều này đã làm cho thí nghiệm của APFrisco trở nên khả thi.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.