DeepSeek V4 開源模型正式推出，參數達 1.6T 並採用 MIT 許可證

ME News 消息，4 月 24 日（UTC+8），據動察 Beating 監測，DeepSeek 開源 V4 系列預覽版，採用 MIT 許可，權重已上線 Hugging Face 和 ModelScope。系列包含兩款 MoE 模型：V4-Pro 總參數 1.6T，每 token 激活 49B（490 億）；V4-Flash 總參數 284B（2840 億），激活 13B（130 億）。兩款均支援 1M token 上下文。架構三大升級：混合注意力機制（壓縮稀疏注意力 CSA + 重度壓縮注意力 HCA）大幅降低長上下文開銷，在 1M 上下文下，V4-Pro 單 token 推理 FLOPs 僅為 V3.2 的 27%，KV 緩存（推理時存儲歷史資訊的顯存佔用）僅為 V3.2 的 10%；流形約束超連接 mHC 取代傳統殘差連接，增強跨層訊號傳播穩定性；訓練改用 Muon 優化器加速收斂。預訓練數據超過 32T token。後訓練分兩階段：先用 SFT 和 GRPO 強化學習分別訓練各領域專家，再用在線蒸餾統一合併成一個模型。V4-Pro-Max（最高推理力度模式）自稱當前最強開源模型，編碼基準達至頂級，推理和 agent 任務與閉源前沿差距顯著縮小。V4-Flash-Max 在給予足夠思考預算後推理表現接近 Pro，但在純知識和複雜 agent 任務上受限於參數規模。權重以 FP4+FP8 混合精度存儲。（來源：BlockBeats）