Bagong Mga Natuklasan sa Post-Training ng Malalaking Model: Ang In-Track Training gamit ang Sariling Nagawa na Data ay Nakakatulong sa Pagpapabuti ng Mga Model

icon MarsBit
I-share
AI summary iconSummary

Ayon sa pagmamasid sa Beating, ang "same-track sampling" (pagpapagana ng modelo batay sa sarili nitong real-time na nilalang na data) sa post-training ng malalaking modelo ay mahalaga upang maiwasan ang pagkabagsak ng modelo at mapabuti ang kakayahang lutasin ang mga problema. Mas mahusay ang online reinforcement learning (RL) at online distillation (OPD) kaysa sa tradisyonal na supervised fine-tuning (SFT) dahil sila ay nagpapagana sa modelo batay sa mga hakbang na ito mismo ang isinulat, hindi lamang pagpapadala ng mga panlabas na tamang sagot. Ang SFT ay nagpapakilala ng mga tamang sagot nang pilit, na nagdadala ng pantay na puwersa sa bawat salita, na madaling nasasira ang dating istruktura ng kaalaman ng modelo at nagdudulot ng pagkalimot. Sa kabilang banda, ang RL at OPD ay pinapahintulutan ang modelo na hanapin at palakasin ang pinakamahusay na hakbang sa sariling draf. Ito ay hindi lamang nag-iwas sa akumulatibong error tulad ng "mali ang unang salita, at patuloy na mali ang lahat ng susunod," kundi ang pag-update ay nangyayari lamang sa mga rehiyon ng kaalaman na kilala na ng modelo, kaya pinakamataas na pinapanatili ang orihinal na kakayahan. Sa eksperimento sa "minimum code editing," anuman ang gamit na SFT o RL mentor para sa online distillation, ang tagapagtataguyod na modelo ay nakamit ang 80.0% at 78.7% na rate ng pagkakatama sa una (Pass@1), na higit pa sa mga mentor na modelo. Kahit na ang SFT mentor ay naging "masyadong bulok" dahil sa sobrang fine-tuning (bumaba mula sa 0.320 hanggang 0.286 sa LiveCodeBench code ability test), ang kanilang mga estudyante ay nakakuha pa rin ng mataas na marka na 0.297, halos hindi naapektuhan ng mga kahinaan ng mentor, na nagpapatotoo na ang same-track practice ay epektibong naglilinis ng masamang ugali ng mentor. Sa kasalukuyan, ang DeepSeek-V4 at GLM-5 ay nagsama na ng online distillation upang i-merge ang kakayahan ng mga eksperto. Sa pagtuturo ng eksperto, mas angkop ang RL sa mga larangan tulad ng code at math kung saan may malinaw na tama o mali, samantalang mas angkop ang online distillation sa mga subhetibong gawain tulad ng pagkamalikhain at kaalaman. Ang huling hantungan ng fine-tuning algorithm ay dapat maghanap ng bagong mekanismo sa ilalim ng same-track training framework na magkakaroon ng parehong mataas na epekto ng distillation (mataas na density ng impormasyon) at obhetibong RL (walang bias na update).

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.