Dòng DeepSeek V4 đã được phát hành với 1,6 nghìn tỷ tham số và giấy phép MIT

iconChainthink
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Tin tức trên chuỗi đã được công bố vào ngày 24 tháng 4 khi DeepSeek ra mắt loạt V4 dưới giấy phép MIT. Các mô hình hiện có trên Hugging Face và ModelScope bao gồm V4-Pro (1,6 nghìn tỷ tham số) và V4-Flash (284 tỷ tham số), cả hai đều hỗ trợ ngữ cảnh 1 triệu token. Loạt V4 giới thiệu ba cải tiến kiến trúc, bao gồm cơ chế chú ý lai giúp giảm chi phí xử lý ngữ cảnh dài. V4-Pro sử dụng 27% FLOPs và 10% bộ nhớ KV cache so với V3.2. Các mô hình được huấn luyện trên hơn 32T token, sử dụng SFT, GRPO và phân tán trực tuyến. Việc niêm yết token mới có thể hưởng lợi từ hiệu suất cải tiến này.

ChainThink thông báo, ngày 24 tháng 4, theo các thông tin chính thức, phiên bản xem trước của loạt DeepSeek V4 đã được phát hành mã nguồn mở với giấy phép MIT, trọng số mô hình đã được đưa lên Hugging Face và ModelScope.


Dòng sản phẩm này bao gồm hai mô hình MoE, trong đó V4-Pro có tổng tham số lên tới 1,6 nghìn tỷ, kích hoạt 49 tỷ tham số mỗi token;


V4-Flash có tổng tham số 284 tỷ, mỗi token kích hoạt 13 tỷ tham số, cả hai phiên bản đều hỗ trợ ngữ cảnh 1 triệu token.


Dãy kiến trúc này bao gồm ba nâng cấp: cơ chế chú ý hỗn hợp (CSA nén thưa thớt + HCA nén nặng) giúp giảm đáng kể chi phí ngữ cảnh dài; trong kịch bản ngữ cảnh 1M, FLOPs suy luận đơn token của V4-Pro chỉ bằng 27% so với V3.2, và bộ nhớ hiển thị chiếm dụng cho bộ nhớ đệm KV chỉ bằng 10% so với V3.2;


Sử dụng siêu kết nối có ràng buộc đa tạp mHC thay thế kết nối dư truyền thống để tăng cường độ ổn định của truyền tín hiệu giữa các lớp; quá trình huấn luyện được chuyển sang sử dụng bộ tối ưu Muon để tăng tốc độ hội tụ. Dữ liệu pre-training của mô hình vượt quá 32T token.


Quá trình huấn luyện sau được chia làm hai giai đoạn: trước tiên, huấn luyện các mô hình chuyên gia trong từng lĩnh vực thông qua SFT và GRPO reinforcement learning, sau đó hợp nhất thống nhất thành mô hình cuối cùng thông qua online distillation.


Trong đó, V4-Pro-Max tự xưng là mô hình mã nguồn mở mạnh nhất hiện tại, đạt mức độ chuẩn mã hóa hàng đầu, và khoảng cách với các mô hình tiên tiến đóng nguồn trong các nhiệm vụ suy luận và agent đã thu hẹp đáng kể;


V4-Flash-Max sau khi có đủ ngân sách suy luận thì hiệu suất suy luận gần với Pro, nhưng bị hạn chế bởi quy mô tham số trong các nhiệm vụ thuần kiến thức và agent phức tạp. Trọng số mô hình được lưu trữ với độ chính xác hỗn hợp FP4+FP8.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.