DeepSeek V4 開源模型正式推出,參數達 1.6T 並採用 MIT 許可證

iconKuCoinFlash
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
鏈上新聞於4月24日(UTC+8)曝光,DeepSeek 在 MIT 許可下推出了其開源 V4 系列模型的預覽版。V4-Pro 和 V4-Flash MoE 模型的參數量分別為 1.6 兆和 2840 億,並支援 1 百萬 token 的上下文。與 V3.2 相比,V4-Pro 將推理 FLOPs 減少 73%,KV 緩存記憶體減少 90%。權重已可在 Hugging Face 和 ModelScope 上獲取。新的代幣上線或可受益於此提升的效率與開放存取。

ME News 消息,4 月 24 日(UTC+8),據動察 Beating 監測,DeepSeek 開源 V4 系列預覽版,採用 MIT 許可,權重已上線 Hugging Face 和 ModelScope。系列包含兩款 MoE 模型:V4-Pro 總參數 1.6T,每 token 激活 49B(490 億);V4-Flash 總參數 284B(2840 億),激活 13B(130 億)。兩款均支援 1M token 上下文。架構三大升級:混合注意力機制(壓縮稀疏注意力 CSA + 重度壓縮注意力 HCA)大幅降低長上下文開銷,在 1M 上下文下,V4-Pro 單 token 推理 FLOPs 僅為 V3.2 的 27%,KV 緩存(推理時存儲歷史資訊的顯存佔用)僅為 V3.2 的 10%;流形約束超連接 mHC 取代傳統殘差連接,增強跨層訊號傳播穩定性;訓練改用 Muon 優化器加速收斂。預訓練數據超過 32T token。後訓練分兩階段:先用 SFT 和 GRPO 強化學習分別訓練各領域專家,再用在線蒸餾統一合併成一個模型。V4-Pro-Max(最高推理力度模式)自稱當前最強開源模型,編碼基準達至頂級,推理和 agent 任務與閉源前沿差距顯著縮小。V4-Flash-Max 在給予足夠思考預算後推理表現接近 Pro,但在純知識和複雜 agent 任務上受限於參數規模。權重以 FP4+FP8 混合精度存儲。(來源:BlockBeats)

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露