大規模モデルのトレーニング後における新発見：自己生成データによるイントラックトレーニングがモデルの改善に寄与する

動察Beatingの監視によると、大規模モデルの後学習における「同軌サンプリング」（つまり、モデルが自らリアルタイムで生成したデータに基づいて学習する方法）は、モデルの劣化を防ぎ、問題解決能力を向上させる鍵である。オンライン強化学習（RL）と同軌蒸留（OPD）が従来の監督微調整（SFT）よりも優れている本質的な理由は、モデルが外部の正解を丸暗記するのではなく、自ら書き出した手順に基づいて最適化される点にある。SFTは正解を無理に押し込むため、各単語に均等な修正力が加わってしまい、モデルの既存の知識構造を容易に破壊し、忘却を引き起こす。一方、RLとOPDは、モデルが自ら書いた下書きの中から最適な手順を見つけ出し、強化する。これにより、「最初の単語を間違えるとその後すべてがずれる」という累積誤差を回避でき、更新はモデルが既に知っている知識領域内でのみ行われるため、元々の能力を最大限に保持できる。「最小コード編集」実験では、SFTまたはRLの教師モデルによる同軌蒸留を用いた場合、学生モデルのコードを一発で正しく書き上げる成功率（Pass@1）はそれぞれ80.0％と78.7％となり、いずれも教師モデルを上回った。たとえSFT教師モデルが過剰微調整により著しく「馬鹿化」し（LiveCodeBenchコード能力テストで0.320から0.286へ低下）、その学生モデルは依然として0.297という高得点を獲得し、教師の欠点による影響をほとんど受けていない。これは同軌練習が教師の悪い習慣を効果的にフィルタリングできることを示している。現在、DeepSeek-V4とGLM-5は、専門モデルの能力を統合するために同軌蒸留を導入している。専門学習において、コードや数学など明確な正誤がある分野にはRLが適し、創造性や知識系の主観的タスクには同軌蒸留が適している。今後の究極の微調整アルゴリズムは、同軌学習フレームワークの中で、蒸留の高効率（高情報密度）とRLの客観性（無偏更新）を両立する新たなメカニズムを見出す必要がある。