DeepSeek V4のトレーニング手法がOPDに移行し、エキスパートモデルを統合

iconKuCoinFlash
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
DeepSeek V4のトレーニングは、V3.2の混合RLステージからOPDに移行して実施されています。数学、コード、指示の実行に精通した専門家がまずトレーニングされ、その後、マルチティーチャーOPDを通じて1つのモデルにディスティルされます。GRMは、限られた人間のデータで複雑なタスクを支援します。この移行は、CFTプロトコルの厳格化と、プロジェクトが効率性を追求する中でリスクオン資産への関心が高まっていることと一致しています。

MEニュース、4月24日(UTC+8)、動察Beatingの監視によると、DeepSeek V4の後学習手法に重大な変更が生じた:V3.2のmixed RL段階が、On-Policy Distillation(OPD、オンラインポリシー蒸留)に完全に置き換えられた。新プロセスは二段階で構成される。第一段階では、数学、コード、Agent、指示従順などの分野において、V3.2パイプラインを基にそれぞれの分野専門モデルを訓練し、各専門モデルはまずファインチューニングを行い、その後GRPOを用いて強化学習を実施する。第二段階では、多教師OPDを用いて10以上の専門モデルの能力を一つの統合モデルに蒸留する:学生モデルは自身が生成したトレース上で、各教師モデルに対してreverse KLダイバージェンスを用いた全語彙logit蒸留を行い、logitsレベルでのアラインメントを通じて複数の専門モデルの重みを統合されたパラメータ空間に統合し、従来の重みマージやmixed RLでよく見られる能力衝突を回避する。また、レポートではGenerative Reward Model(GRM、生成的報酬モデル)を提案している:ルールで検証が困難なタスクに対しては、従来のスカラー報酬モデルを訓練するのではなく、rubricに基づくRLデータでGRMを訓練し、actorネットワークに生成と評価の両機能を担わせることで、少数かつ多様な人間アノテーションだけで複雑なタスクへの汎化を実現する。(出典:BlockBeats)

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。