Dòng DeepSeek V4 đã được phát hành với 1,6 nghìn tỷ tham số và giấy phép MIT

ChainThink thông báo, ngày 24 tháng 4, theo các thông tin chính thức, phiên bản xem trước của loạt DeepSeek V4 đã được phát hành mã nguồn mở với giấy phép MIT, trọng số mô hình đã được đưa lên Hugging Face và ModelScope.

Dòng sản phẩm này bao gồm hai mô hình MoE, trong đó V4-Pro có tổng tham số lên tới 1,6 nghìn tỷ, kích hoạt 49 tỷ tham số mỗi token;

V4-Flash có tổng tham số 284 tỷ, mỗi token kích hoạt 13 tỷ tham số, cả hai phiên bản đều hỗ trợ ngữ cảnh 1 triệu token.

Dãy kiến trúc này bao gồm ba nâng cấp: cơ chế chú ý hỗn hợp (CSA nén thưa thớt + HCA nén nặng) giúp giảm đáng kể chi phí ngữ cảnh dài; trong kịch bản ngữ cảnh 1M, FLOPs suy luận đơn token của V4-Pro chỉ bằng 27% so với V3.2, và bộ nhớ hiển thị chiếm dụng cho bộ nhớ đệm KV chỉ bằng 10% so với V3.2;

Sử dụng siêu kết nối có ràng buộc đa tạp mHC thay thế kết nối dư truyền thống để tăng cường độ ổn định của truyền tín hiệu giữa các lớp; quá trình huấn luyện được chuyển sang sử dụng bộ tối ưu Muon để tăng tốc độ hội tụ. Dữ liệu pre-training của mô hình vượt quá 32T token.

Quá trình huấn luyện sau được chia làm hai giai đoạn: trước tiên, huấn luyện các mô hình chuyên gia trong từng lĩnh vực thông qua SFT và GRPO reinforcement learning, sau đó hợp nhất thống nhất thành mô hình cuối cùng thông qua online distillation.

Trong đó, V4-Pro-Max tự xưng là mô hình mã nguồn mở mạnh nhất hiện tại, đạt mức độ chuẩn mã hóa hàng đầu, và khoảng cách với các mô hình tiên tiến đóng nguồn trong các nhiệm vụ suy luận và agent đã thu hẹp đáng kể;

V4-Flash-Max sau khi có đủ ngân sách suy luận thì hiệu suất suy luận gần với Pro, nhưng bị hạn chế bởi quy mô tham số trong các nhiệm vụ thuần kiến thức và agent phức tạp. Trọng số mô hình được lưu trữ với độ chính xác hỗn hợp FP4+FP8.