Bagong Mga Natuklasan sa Post-Training ng Malalaking Model: Ang In-Track Training gamit ang Sariling Nagawa na Data ay Nakakatulong sa Pagpapabuti ng Mga Model

Ayon sa pagmamasid sa Beating, ang "same-track sampling" (pagpapagana ng modelo batay sa sarili nitong real-time na nilalang na data) sa post-training ng malalaking modelo ay mahalaga upang maiwasan ang pagkabagsak ng modelo at mapabuti ang kakayahang lutasin ang mga problema. Mas mahusay ang online reinforcement learning (RL) at online distillation (OPD) kaysa sa tradisyonal na supervised fine-tuning (SFT) dahil sila ay nagpapagana sa modelo batay sa mga hakbang na ito mismo ang isinulat, hindi lamang pagpapadala ng mga panlabas na tamang sagot. Ang SFT ay nagpapakilala ng mga tamang sagot nang pilit, na nagdadala ng pantay na puwersa sa bawat salita, na madaling nasasira ang dating istruktura ng kaalaman ng modelo at nagdudulot ng pagkalimot. Sa kabilang banda, ang RL at OPD ay pinapahintulutan ang modelo na hanapin at palakasin ang pinakamahusay na hakbang sa sariling draf. Ito ay hindi lamang nag-iwas sa akumulatibong error tulad ng "mali ang unang salita, at patuloy na mali ang lahat ng susunod," kundi ang pag-update ay nangyayari lamang sa mga rehiyon ng kaalaman na kilala na ng modelo, kaya pinakamataas na pinapanatili ang orihinal na kakayahan. Sa eksperimento sa "minimum code editing," anuman ang gamit na SFT o RL mentor para sa online distillation, ang tagapagtataguyod na modelo ay nakamit ang 80.0% at 78.7% na rate ng pagkakatama sa una (Pass@1), na higit pa sa mga mentor na modelo. Kahit na ang SFT mentor ay naging "masyadong bulok" dahil sa sobrang fine-tuning (bumaba mula sa 0.320 hanggang 0.286 sa LiveCodeBench code ability test), ang kanilang mga estudyante ay nakakuha pa rin ng mataas na marka na 0.297, halos hindi naapektuhan ng mga kahinaan ng mentor, na nagpapatotoo na ang same-track practice ay epektibong naglilinis ng masamang ugali ng mentor. Sa kasalukuyan, ang DeepSeek-V4 at GLM-5 ay nagsama na ng online distillation upang i-merge ang kakayahan ng mga eksperto. Sa pagtuturo ng eksperto, mas angkop ang RL sa mga larangan tulad ng code at math kung saan may malinaw na tama o mali, samantalang mas angkop ang online distillation sa mga subhetibong gawain tulad ng pagkamalikhain at kaalaman. Ang huling hantungan ng fine-tuning algorithm ay dapat maghanap ng bagong mekanismo sa ilalim ng same-track training framework na magkakaroon ng parehong mataas na epekto ng distillation (mataas na density ng impormasyon) at obhetibong RL (walang bias na update).