Menurut pemantauan Beating, "sampling on-policy" (yaitu melatih model berdasarkan data yang secara real-time dihasilkannya sendiri) dalam pelatihan pasca-large model merupakan kunci untuk mencegah degradasi model dan meningkatkan kemampuan pemecahan masalah. Pembelajaran penguatan daring (RL) dan distilasi on-policy (OPD) unggul dibandingkan fine-tuning supervisi tradisional (SFT) karena pada dasarnya mereka membuat model mengoptimalkan langkah-langkah yang ditulisnya sendiri, bukan menghafal jawaban standar eksternal. SFT memaksakan penanaman jawaban standar dengan menerapkan kekuatan modifikasi secara merata pada setiap kata, sehingga sangat mudah merusak struktur pengetahuan asli model dan menyebabkan pelupaan. Sebaliknya, RL dan OPD memungkinkan model mencari dan memperkuat langkah terbaik dalam draf yang ditulisnya sendiri. Ini tidak hanya mencegah akumulasi kesalahan seperti "salah satu kata di awal, lalu seluruh jalannya menyimpang", tetapi juga membatasi pembaruan hanya pada wilayah pengetahuan yang sudah dikenal model, sehingga mempertahankan kemampuan aslinya seoptimal mungkin. Dalam eksperimen "pengeditan kode minimal", baik menggunakan guru SFT maupun RL untuk distilasi on-policy, tingkat keberhasilan model siswa menulis kode yang benar secara langsung (Pass@1) masing-masing mencapai 80,0% dan 78,7%, melebihi model gurunya. Bahkan meskipun guru SFT menjadi sangat "bodoh" akibat over-fine-tuning (skor kemampuan kode di LiveCodeBench turun dari 0,320 menjadi 0,286), model siswa yang dihasilkannya tetap mendapatkan skor tinggi 0,297, hampir tidak terpengaruh oleh kelemahan gurunya, membuktikan bahwa latihan on-policy mampu secara efektif menyaring kebiasaan buruk guru. Saat ini, DeepSeek-V4 dan GLM-5 telah mengadopsi distilasi on-policy untuk menggabungkan kemampuan model ahli. Dalam pelatihan ahli, bidang-bidang dengan jawaban jelas benar-salah seperti kode dan matematika lebih cocok menggunakan RL, sementara tugas subjektif kreatif dan pengetahuan lebih cocok menggunakan distilasi on-policy. Algoritma fine-tuning masa depan yang paling ideal pasti akan mencari mekanisme baru dalam kerangka pelatihan on-policy yang menggabungkan efisiensi distilasi tinggi (kepadatan informasi tinggi) dengan objektivitas RL (pembaruan tanpa bias).
Temuan Baru dalam Pelatihan Pasca-Model Besar: Pelatihan In-Track dengan Data yang Dihasilkan Sendiri Membantu Model Meningkat
MarsBitBagikan
Penelitian baru menyoroti pelatihan dalam-trek dengan data yang dihasilkan sendiri sebagai metode utama untuk meningkatkan kinerja model dan menghindari penurunan. Berbeda dengan SFT tradisional, RL daring dan distilasi dalam-trek (OPD) memungkinkan model menyempurnakan langkah-langkahnya sendiri secara real-time. Uji coba terbaru menunjukkan bahwa model siswa yang dilatih dengan cara ini mengungguli mentor, bahkan ketika data inflasi dan pergeseran pasar memengaruhi tolok ukur eksternal. Platform seperti DeepSeek-V4 dan GLM-5 sudah menggunakan metode ini untuk menggabungkan pengetahuan ahli. Pencatatan token baru dapat mendapat manfaat dari model yang lebih akurat dan adaptif menggunakan distilasi dalam-trek.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.