DeepSeek V4 系列發布,擁有 1.6 兆參數並採用 MIT 許可證

iconChainthink
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
4 月 24 日,鏈上新聞披露 DeepSeek 發布了基於 MIT 許可證的 V4 系列模型。這些模型現已登陸 Hugging Face 和 ModelScope,包括 V4-Pro(1.6 兆參數)和 V4-Flash(284 億參數),均支援 1 百萬 token 上下文。V4 系列引入了三項架構升級,包括可降低長上下文成本的混合注意力機制。V4-Pro 僅使用 V3.2 的 27% FLOPs 和 10% 的 KV 快取記憶體。這些模型在超過 32T 個 token 上進行訓練,並採用 SFT、GRPO 和線上蒸餾技術。此項效率提升可能使新代幣上架受益。

ChainThink 消息,4月24日,據官方相關資訊,DeepSeek 開源 V4 系列預覽版,採用 MIT 許可,模型權重已上線 Hugging Face 和 ModelScope。


該系列包含兩款 MoE 模型,其中 V4-Pro 的總參數達 1.6 萬億,每 token 激活 490 億參數;


V4-Flash 總參數為 2840 億,每個 token 激活 130 億參數,兩款均支援 1M token 上下文。


該系列架構包含三項升級:混合注意力機制(壓縮稀疏注意力 CSA + 重度壓縮注意力 HCA)可大幅降低長上下文開銷,在 1M 上下文場景下,V4-Pro 單 token 推理 FLOPs 僅為 V3.2 的 27%,KV 緩存顯存佔用僅為 V3.2 的 10%;


流形約束超連接 mHC 取代傳統殘差連接,增強跨層訊號傳播穩定性;訓練改用 Muon 優化器加速收斂。該模型預訓練數據超過 32T token。


Post-training is divided into two stages: first, domain-specific expert models are trained separately via SFT and GRPO reinforcement learning, then unified into the final model through online distillation.


其中 V4-Pro-Max 自稱當前最強開源模型,編碼基準達頂級水平,推理和 agent 任務與閉源前沿模型的差距顯著縮小;


V4-Flash-Max 在獲得足夠的思考預算後,推理表現接近 Pro,但在純知識和複雜 agent 任務上受限於參數規模。模型權重以 FP4+FP8 混合精度存儲。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露