Mô hình nguồn mở DeepSeek V4 ra mắt với 1,6T tham số và giấy phép MIT

Tin tức từ ME News, ngày 24 tháng 4 (UTC+8), theo giám sát của Beating, phiên bản xem trước của chuỗi DeepSeek V4 mở nguồn, cấp phép MIT, đã được triển khai trên Hugging Face và ModelScope. Chuỗi bao gồm hai mô hình MoE: V4-Pro với tổng tham số 1,6T và kích hoạt 49B (49 tỷ) mỗi token; V4-Flash với tổng tham số 284B (284 tỷ) và kích hoạt 13B (13 tỷ). Cả hai đều hỗ trợ ngữ cảnh 1M token. Ba cải tiến kiến trúc: Cơ chế chú ý hỗn hợp (CSA - Chú ý thưa thớt nén + HCA - Chú ý nén mạnh) giảm đáng kể chi phí ngữ cảnh dài, trong đó FLOPs cho mỗi token suy luận của V4-Pro dưới ngữ cảnh 1M chỉ bằng 27% so với V3.2, và bộ nhớ đệm KV (bộ nhớ GPU lưu trữ thông tin lịch sử trong quá trình suy luận) chỉ bằng 10% so với V3.2; mHC - Siêu kết nối ràng buộc đa tạp thay thế kết nối dư truyền thống, tăng cường tính ổn định trong truyền tín hiệu giữa các lớp; tối ưu hóa quá trình huấn luyện bằng bộ tối ưu Muon để tăng tốc độ hội tụ. Dữ liệu tiền huấn luyện vượt quá 32T token. Huấn luyện sau được chia làm hai giai đoạn: trước tiên sử dụng SFT và GRPO để huấn luyện các chuyên gia trong từng lĩnh vực, sau đó kết hợp thống nhất thành một mô hình thông qua học sinh trực tuyến. V4-Pro-Max (chế độ suy luận mạnh nhất) tự xưng là mô hình mở nguồn mạnh nhất hiện nay, đạt hiệu suất hàng đầu trên các tiêu chuẩn mã hóa, và khoảng cách với các mô hình đóng nguồn tiên tiến đã thu hẹp đáng kể trong các nhiệm vụ suy luận và agent. V4-Flash-Max cho hiệu suất suy luận gần với Pro khi được cấp đủ ngân sách suy nghĩ, nhưng bị hạn chế bởi quy mô tham số trong các nhiệm vụ kiến thức thuần túy và agent phức tạp. Trọng số được lưu trữ ở độ chính xác hỗn hợp FP4+FP8. (Nguồn: BlockBeats)