ChainThink 消息,4月24日,據官方相關資訊,DeepSeek 開源 V4 系列預覽版,採用 MIT 許可,模型權重已上線 Hugging Face 和 ModelScope。
該系列包含兩款 MoE 模型,其中 V4-Pro 的總參數達 1.6 萬億,每 token 激活 490 億參數;
V4-Flash 總參數為 2840 億,每個 token 激活 130 億參數,兩款均支援 1M token 上下文。
該系列架構包含三項升級:混合注意力機制(壓縮稀疏注意力 CSA + 重度壓縮注意力 HCA)可大幅降低長上下文開銷,在 1M 上下文場景下,V4-Pro 單 token 推理 FLOPs 僅為 V3.2 的 27%,KV 緩存顯存佔用僅為 V3.2 的 10%;
流形約束超連接 mHC 取代傳統殘差連接,增強跨層訊號傳播穩定性;訓練改用 Muon 優化器加速收斂。該模型預訓練數據超過 32T token。
Post-training is divided into two stages: first, domain-specific expert models are trained separately via SFT and GRPO reinforcement learning, then unified into the final model through online distillation.
其中 V4-Pro-Max 自稱當前最強開源模型,編碼基準達頂級水平,推理和 agent 任務與閉源前沿模型的差距顯著縮小;
V4-Flash-Max 在獲得足夠的思考預算後,推理表現接近 Pro,但在純知識和複雜 agent 任務上受限於參數規模。模型權重以 FP4+FP8 混合精度存儲。
