Penemuan Baru dalam Latihan Selepas Model Besar: Latihan Dalam-Laluan dengan Data yang Dihasilkan Sendiri Membantu Model Meningkat

Berdasarkan pemantauan Beating, "pengambilan sampel sejajar" (iaitu membolehkan model dilatih berdasarkan data yang dihasilkan secara nyata oleh dirinya sendiri) dalam pelatihan selepas model besar merupakan kunci untuk mencegah penurunan model dan meningkatkan kemampuan penyelesaian masalah. Pembelajaran penguatan secara dalam talian (RL) dan distilasi sejajar (OPD) unggul berbanding penyesuaian halus pengawasan tradisional (SFT) kerana intinya ialah ia membolehkan model mengoptimumkan langkah-langkah yang ia tulis sendiri, bukan menghafal jawapan standard luaran. SFT memaksa menanamkan jawapan standard, yang menyebabkan daya pengubahsuaian model disebar secara seragam ke setiap perkataan, mudah merosakkan struktur pengetahuan asal model dan menyebabkan pelupaan. Sebaliknya, RL dan OPD membolehkan model mencari dan memperkuat langkah terbaik dalam draf yang ia tulis sendiri. Ini tidak hanya mengelakkan ralat berakumulasi seperti "salah satu perkataan di awal, seluruhnya menyimpang", tetapi juga pembaharuan hanya berlaku dalam kawasan pengetahuan yang sudah diketahui model, dengan itu memaksimumkan pemeliharaan kemampuan asal. Dalam eksperimen "suntingan kod minimum", sama ada menggunakan guru SFT atau RL untuk distilasi sejajar, kadar kejayaan model pelajar menulis kod yang betul pada cubaan pertama (Pass@1) masing-masing mencapai 80.0% dan 78.7%, melebihi model guru. Walaupun guru SFT menjadi "bodoh" secara serius akibat penyesuaian halus berlebihan (skor kemampuan kod dalam ujian LiveCodeBench turun dari 0.320 kepada 0.286), model pelajar yang dihasilkannya masih mencapai skor tinggi 0.297, hampir tidak terkesan oleh kelemahan gurunya, membuktikan bahawa latihan sejajar boleh menyaring kebiasaan buruk guru dengan berkesan. Kini, DeepSeek-V4 dan GLM-5 telah mengintegrasikan distilasi sejajar untuk menggabungkan kemampuan model pakar. Dalam pelatihan pakar, bidang seperti kod dan matematik yang mempunyai jawapan tepat lebih sesuai untuk RL, manakala tugas subjektif kreatif dan pengetahuan lebih sesuai untuk distilasi sejajar. Algoritma penyesuaian halus akhir di masa depan pasti perlu mencari mekanisme baharu dalam kerangka latihan sejajar yang menggabungkan kecekapan distilasi tinggi (kepadatan maklumat tinggi) dengan objektiviti RL (pembaruan tanpa bias).