Tin tức từ ME News, ngày 24 tháng 4 (UTC+8), theo giám sát của Beating, phiên bản xem trước của chuỗi DeepSeek V4 mở nguồn, cấp phép MIT, đã được triển khai trên Hugging Face và ModelScope. Chuỗi bao gồm hai mô hình MoE: V4-Pro với tổng tham số 1,6T và kích hoạt 49B (49 tỷ) mỗi token; V4-Flash với tổng tham số 284B (284 tỷ) và kích hoạt 13B (13 tỷ). Cả hai đều hỗ trợ ngữ cảnh 1M token. Ba cải tiến kiến trúc: Cơ chế chú ý hỗn hợp (CSA - Chú ý thưa thớt nén + HCA - Chú ý nén mạnh) giảm đáng kể chi phí ngữ cảnh dài, trong đó FLOPs cho mỗi token suy luận của V4-Pro dưới ngữ cảnh 1M chỉ bằng 27% so với V3.2, và bộ nhớ đệm KV (bộ nhớ GPU lưu trữ thông tin lịch sử trong quá trình suy luận) chỉ bằng 10% so với V3.2; mHC - Siêu kết nối ràng buộc đa tạp thay thế kết nối dư truyền thống, tăng cường tính ổn định trong truyền tín hiệu giữa các lớp; tối ưu hóa quá trình huấn luyện bằng bộ tối ưu Muon để tăng tốc độ hội tụ. Dữ liệu tiền huấn luyện vượt quá 32T token. Huấn luyện sau được chia làm hai giai đoạn: trước tiên sử dụng SFT và GRPO để huấn luyện các chuyên gia trong từng lĩnh vực, sau đó kết hợp thống nhất thành một mô hình thông qua học sinh trực tuyến. V4-Pro-Max (chế độ suy luận mạnh nhất) tự xưng là mô hình mở nguồn mạnh nhất hiện nay, đạt hiệu suất hàng đầu trên các tiêu chuẩn mã hóa, và khoảng cách với các mô hình đóng nguồn tiên tiến đã thu hẹp đáng kể trong các nhiệm vụ suy luận và agent. V4-Flash-Max cho hiệu suất suy luận gần với Pro khi được cấp đủ ngân sách suy nghĩ, nhưng bị hạn chế bởi quy mô tham số trong các nhiệm vụ kiến thức thuần túy và agent phức tạp. Trọng số được lưu trữ ở độ chính xác hỗn hợp FP4+FP8. (Nguồn: BlockBeats)
Mô hình nguồn mở DeepSeek V4 ra mắt với 1,6T tham số và giấy phép MIT
KuCoinFlashChia sẻ






Tin tức trên chuỗi được công bố vào ngày 24 tháng 4 (UTC+8) khi DeepSeek ra mắt bản xem trước các mô hình dòng V4 mã nguồn mở dưới giấy phép MIT. Các mô hình V4-Pro và V4-Flash MoE lần lượt có 1,6 nghìn tỷ và 284 tỷ tham số, hỗ trợ ngữ cảnh 1 triệu token. V4-Pro giảm 73% FLOPs suy luận và 90% bộ nhớ KV cache so với V3.2. Trọng số đã có sẵn trên Hugging Face và ModelScope. Các danh mục token mới có thể hưởng lợi từ hiệu suất cải tiến và khả năng truy cập mở.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.