Penemuan Baru dalam Latihan Selepas Model Besar: Latihan Dalam-Laluan dengan Data yang Dihasilkan Sendiri Membantu Model Meningkat

icon MarsBit
Kongsi
AI summary iconRingkasan

Berdasarkan pemantauan Beating, "pengambilan sampel sejajar" (iaitu membolehkan model dilatih berdasarkan data yang dihasilkan secara nyata oleh dirinya sendiri) dalam pelatihan selepas model besar merupakan kunci untuk mencegah penurunan model dan meningkatkan kemampuan penyelesaian masalah. Pembelajaran penguatan secara dalam talian (RL) dan distilasi sejajar (OPD) unggul berbanding penyesuaian halus pengawasan tradisional (SFT) kerana intinya ialah ia membolehkan model mengoptimumkan langkah-langkah yang ia tulis sendiri, bukan menghafal jawapan standard luaran. SFT memaksa menanamkan jawapan standard, yang menyebabkan daya pengubahsuaian model disebar secara seragam ke setiap perkataan, mudah merosakkan struktur pengetahuan asal model dan menyebabkan pelupaan. Sebaliknya, RL dan OPD membolehkan model mencari dan memperkuat langkah terbaik dalam draf yang ia tulis sendiri. Ini tidak hanya mengelakkan ralat berakumulasi seperti "salah satu perkataan di awal, seluruhnya menyimpang", tetapi juga pembaharuan hanya berlaku dalam kawasan pengetahuan yang sudah diketahui model, dengan itu memaksimumkan pemeliharaan kemampuan asal. Dalam eksperimen "suntingan kod minimum", sama ada menggunakan guru SFT atau RL untuk distilasi sejajar, kadar kejayaan model pelajar menulis kod yang betul pada cubaan pertama (Pass@1) masing-masing mencapai 80.0% dan 78.7%, melebihi model guru. Walaupun guru SFT menjadi "bodoh" secara serius akibat penyesuaian halus berlebihan (skor kemampuan kod dalam ujian LiveCodeBench turun dari 0.320 kepada 0.286), model pelajar yang dihasilkannya masih mencapai skor tinggi 0.297, hampir tidak terkesan oleh kelemahan gurunya, membuktikan bahawa latihan sejajar boleh menyaring kebiasaan buruk guru dengan berkesan. Kini, DeepSeek-V4 dan GLM-5 telah mengintegrasikan distilasi sejajar untuk menggabungkan kemampuan model pakar. Dalam pelatihan pakar, bidang seperti kod dan matematik yang mempunyai jawapan tepat lebih sesuai untuk RL, manakala tugas subjektif kreatif dan pengetahuan lebih sesuai untuk distilasi sejajar. Algoritma penyesuaian halus akhir di masa depan pasti perlu mencari mekanisme baharu dalam kerangka latihan sejajar yang menggabungkan kecekapan distilasi tinggi (kepadatan maklumat tinggi) dengan objektiviti RL (pembaruan tanpa bias).

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.