ME News 消息,4 月 22 日(UTC+8),據動察 Beating 監測,普林斯頓博士生 Yifan Zhang 在 X 上更新了 DeepSeek V4 的技術細節。他於 4 月 19 日預告「V4 下週」並列出三個架構組件名稱,今晚公布完整參數表,同時首次披露存在一個 285B 參數的輕量版 V4-Lite。V4 總參數為 1.6T。注意力機制為 DSA2,結合了 DeepSeek 在 V3.2 中使用的 DSA(DeepSeek Sparse Attention)與今年初論文提出的 NSA(Native Sparse Attention)兩種稀疏注意力方案,head-dim 為 512,並搭配 Sparse MQA 和 SWA(滑動窗口注意力)。MoE 層共 384 個專家,每次激活 6 個,使用 Fused MoE Mega-Kernel。殘差連接沿用 Hyper-Connections。訓練端首次披露的細節包括:優化器使用 Muon(一種將 Newton-Schulz 正交化應用於動量更新的矩陣級優化器),預訓練上下文長度為 32K,強化學習階段使用 GRPO 並加入 KL 散度校正。最終上下文長度擴展至 1M。模態為純文本。Zhang 不在 DeepSeek 任職,DeepSeek 官方未對上述資訊作出回應。(來源:BlockBeats)
DeepSeek V4 技術規格揭曉:1.6T 個參數、384 個專家啟用 6 個
KuCoinFlash分享






4 月 22 日(UTC+8),普林斯頓博士生張一帆在 X 平台上分享了 DeepSeek V4 的技術指標。該模型擁有 1.6 兆參數、384 個 MoE 專家,每步驟啟用 6 個,並有 285B 參數的 V4-Lite 版本。訓練使用了 Muon 優化器、32K 預訓練上下文長度和 1M 最終上下文長度。DeepSeek 尚未發表評論。市場情緒仍呈分歧,恐懼與貪婪指數顯示中度不確定性。
來源:顯示原文
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。