Temuan Baru dalam Pelatihan Pasca-Model Besar: Pelatihan In-Track dengan Data yang Dihasilkan Sendiri Membantu Model Meningkat

Menurut pemantauan Beating, "sampling on-policy" (yaitu melatih model berdasarkan data yang secara real-time dihasilkannya sendiri) dalam pelatihan pasca-large model merupakan kunci untuk mencegah degradasi model dan meningkatkan kemampuan pemecahan masalah. Pembelajaran penguatan daring (RL) dan distilasi on-policy (OPD) unggul dibandingkan fine-tuning supervisi tradisional (SFT) karena pada dasarnya mereka membuat model mengoptimalkan langkah-langkah yang ditulisnya sendiri, bukan menghafal jawaban standar eksternal. SFT memaksakan penanaman jawaban standar dengan menerapkan kekuatan modifikasi secara merata pada setiap kata, sehingga sangat mudah merusak struktur pengetahuan asli model dan menyebabkan pelupaan. Sebaliknya, RL dan OPD memungkinkan model mencari dan memperkuat langkah terbaik dalam draf yang ditulisnya sendiri. Ini tidak hanya mencegah akumulasi kesalahan seperti "salah satu kata di awal, lalu seluruh jalannya menyimpang", tetapi juga membatasi pembaruan hanya pada wilayah pengetahuan yang sudah dikenal model, sehingga mempertahankan kemampuan aslinya seoptimal mungkin. Dalam eksperimen "pengeditan kode minimal", baik menggunakan guru SFT maupun RL untuk distilasi on-policy, tingkat keberhasilan model siswa menulis kode yang benar secara langsung (Pass@1) masing-masing mencapai 80,0% dan 78,7%, melebihi model gurunya. Bahkan meskipun guru SFT menjadi sangat "bodoh" akibat over-fine-tuning (skor kemampuan kode di LiveCodeBench turun dari 0,320 menjadi 0,286), model siswa yang dihasilkannya tetap mendapatkan skor tinggi 0,297, hampir tidak terpengaruh oleh kelemahan gurunya, membuktikan bahwa latihan on-policy mampu secara efektif menyaring kebiasaan buruk guru. Saat ini, DeepSeek-V4 dan GLM-5 telah mengadopsi distilasi on-policy untuk menggabungkan kemampuan model ahli. Dalam pelatihan ahli, bidang-bidang dengan jawaban jelas benar-salah seperti kode dan matematika lebih cocok menggunakan RL, sementara tugas subjektif kreatif dan pengetahuan lebih cocok menggunakan distilasi on-policy. Algoritma fine-tuning masa depan yang paling ideal pasti akan mencari mekanisme baru dalam kerangka pelatihan on-policy yang menggabungkan efisiensi distilasi tinggi (kepadatan informasi tinggi) dengan objektivitas RL (pembaruan tanpa bias).