Berdasarkan pemantauan Beating, "pengambilan sampel sejajar" (iaitu membolehkan model dilatih berdasarkan data yang dihasilkan secara nyata oleh dirinya sendiri) dalam pelatihan selepas model besar merupakan kunci untuk mencegah penurunan model dan meningkatkan kemampuan penyelesaian masalah. Pembelajaran penguatan secara dalam talian (RL) dan distilasi sejajar (OPD) unggul berbanding penyesuaian halus pengawasan tradisional (SFT) kerana intinya ialah ia membolehkan model mengoptimumkan langkah-langkah yang ia tulis sendiri, bukan menghafal jawapan standard luaran. SFT memaksa menanamkan jawapan standard, yang menyebabkan daya pengubahsuaian model disebar secara seragam ke setiap perkataan, mudah merosakkan struktur pengetahuan asal model dan menyebabkan pelupaan. Sebaliknya, RL dan OPD membolehkan model mencari dan memperkuat langkah terbaik dalam draf yang ia tulis sendiri. Ini tidak hanya mengelakkan ralat berakumulasi seperti "salah satu perkataan di awal, seluruhnya menyimpang", tetapi juga pembaharuan hanya berlaku dalam kawasan pengetahuan yang sudah diketahui model, dengan itu memaksimumkan pemeliharaan kemampuan asal. Dalam eksperimen "suntingan kod minimum", sama ada menggunakan guru SFT atau RL untuk distilasi sejajar, kadar kejayaan model pelajar menulis kod yang betul pada cubaan pertama (Pass@1) masing-masing mencapai 80.0% dan 78.7%, melebihi model guru. Walaupun guru SFT menjadi "bodoh" secara serius akibat penyesuaian halus berlebihan (skor kemampuan kod dalam ujian LiveCodeBench turun dari 0.320 kepada 0.286), model pelajar yang dihasilkannya masih mencapai skor tinggi 0.297, hampir tidak terkesan oleh kelemahan gurunya, membuktikan bahawa latihan sejajar boleh menyaring kebiasaan buruk guru dengan berkesan. Kini, DeepSeek-V4 dan GLM-5 telah mengintegrasikan distilasi sejajar untuk menggabungkan kemampuan model pakar. Dalam pelatihan pakar, bidang seperti kod dan matematik yang mempunyai jawapan tepat lebih sesuai untuk RL, manakala tugas subjektif kreatif dan pengetahuan lebih sesuai untuk distilasi sejajar. Algoritma penyesuaian halus akhir di masa depan pasti perlu mencari mekanisme baharu dalam kerangka latihan sejajar yang menggabungkan kecekapan distilasi tinggi (kepadatan maklumat tinggi) dengan objektiviti RL (pembaruan tanpa bias).
Penemuan Baru dalam Latihan Selepas Model Besar: Latihan Dalam-Laluan dengan Data yang Dihasilkan Sendiri Membantu Model Meningkat
MarsBitKongsi
Penyelidikan baharu menonjolkan latihan dalam-trak dengan data yang dihasilkan sendiri sebagai kaedah utama untuk meningkatkan prestasi model dan mengelakkan penurunan. Berbeza dengan SFT tradisional, RL dalam talian dan distilasi dalam-trak (OPD) membenarkan model menyempurnakan langkah-langkah mereka sendiri secara masa nyata. Ujian terkini menunjukkan model pelajar yang dilatih dengan cara ini melebihi mentor, walaupun data inflasi dan perubahan pasaran memberi kesan kepada tolok luar. Platform seperti DeepSeek-V4 dan GLM-5 sudah menggunakan kaedah ini untuk menggabungkan pengetahuan pakar. Penyenaraian token baharu mungkin mendapat manfaat daripada model yang lebih tepat dan beradaptasi menggunakan distilasi dalam-trak.
Sumber:Tunjukkan artikel asal
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini.
Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.