DeepSeek V4 訓練方法轉向 OPD,整合專家模型

iconKuCoinFlash
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
DeepSeek V4 的訓練現已改用 OPD,取代 V3.2 的混合強化學習階段。首先訓練數學、程式碼和指令遵循方面的專家,再透過多教師 OPD 將其蒸餾為單一模型。GRM 可在僅使用少量人工數據的情況下協助處理複雜任務。此轉變與更嚴格的 CFT 協議以及市場對風險資產興趣上升趨勢一致,項目方正追求更高效率。

ME News 消息,4 月 24 日(UTC+8),據動察 Beating 監測,DeepSeek V4 的後訓練方法論發生重大變化:V3.2 的 mixed RL 階段已被 On-Policy Distillation(OPD,在線策略蒸餾)完全取代。新流程分為兩步。第一步,在 V3.2 流水線的基礎上,針對數學、代碼、Agent、指令跟隨等領域分別訓練領域專家模型,每個專家先進行微調,再使用 GRPO 進行強化學習。第二步,利用多教師 OPD 將十餘個專家的能力蒸餾至一個統一模型:學生在自身生成的軌跡上,對每個教師進行 reverse KL 散度的全詞表 logit 蒸餾,透過 logits 級別的對齊將多個專家權重合併至統一參數空間,避免傳統 weight merging 和 mixed RL 常見的能力衝突。報告還提出 Generative Reward Model(GRM,生成式獎勵模型):對於難以用規則驗證的任務,不再訓練傳統標量獎勵模型,而是使用 rubric 引導的 RL 數據訓練 GRM,讓 actor 網絡同時承擔生成與評判能力,僅需少量多樣化的人工標註即可泛化至複雜任務。(來源:BlockBeats)

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露