Berita ME, 24 April (UTC+8), menurut pemantauan Beating, terdapat perubahan besar dalam metodologi pelatihan lanjutan DeepSeek V4: fasa mixed RL pada V3.2 digantikan sepenuhnya oleh On-Policy Distillation (OPD). Proses baharu ini terdiri daripada dua langkah. Langkah pertama, model pakar domain dilatih secara berasingan berdasarkan saluran V3.2 untuk bidang-bidang seperti matematik, kod, Agent, dan pengikutan arahan; setiap pakar menjalani fine-tuning terlebih dahulu sebelum menggunakan GRPO untuk pembelajaran penguatan. Langkah kedua, kemampuan lebih daripada sepuluh pakar didistilasi ke dalam satu model seragam menggunakan multi-teacher OPD: pelajar melakukan distilasi logit seluruh vokabular berdasarkan reverse KL divergence terhadap setiap guru pada trajektori yang dihasilkannya sendiri, menggabungkan bobot pelbagai pakar ke dalam ruang parameter seragam melalui penyelarasan pada aras logit, mengelakkan konflik kemampuan yang biasa berlaku dalam penggabungan bobot tradisional dan mixed RL. Laporan tersebut juga memperkenalkan Generative Reward Model (GRM): bagi tugas-tugas sukar diverifikasi dengan peraturan, bukannya melatih model ganjaran skalar tradisional, GRM dilatih menggunakan data RL yang dipandu oleh rubrik, membolehkan rangkaian actor menanggung kemampuan menghasilkan dan menilai secara serentak, serta mampu generalisasi kepada tugas kompleks dengan hanya sedikit label manual yang pelbagai. (Sumber: BlockBeats)
Perubahan Metodologi Pelatihan DeepSeek V4 kepada OPD, Menggabungkan Model Pakar
KuCoinFlashKongsi






Latihan DeepSeek V4 kini menggunakan OPD selepas beralih dari peringkat RL campuran V3.2. Pakar dalam matematik, kod, dan mengikuti arahan dilatih terlebih dahulu, kemudian didistilasi ke dalam satu model melalui OPD pelajar ganda. GRM membantu tugas kompleks dengan data manusia minimum. Perpindahan ini selari dengan protokol CFT yang lebih ketat dan peningkatan minat terhadap aset berisiko tinggi semasa projek mencari kecekapan.
Sumber:Tunjukkan artikel asal
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini.
Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.