Berita ME, 24 April (UTC+8), menurut pemantauan Beating, metode pelatihan lanjutan DeepSeek V4 mengalami perubahan besar: tahap mixed RL pada V3.2 sepenuhnya digantikan oleh On-Policy Distillation (OPD). Proses baru terdiri dari dua langkah. Langkah pertama, melatih model ahli bidang secara terpisah berdasarkan alur V3.2, mencakup bidang matematika, kode, Agent, dan pengikutan instruksi; setiap ahli melakukan fine-tuning terlebih dahulu, lalu menggunakan GRPO untuk pembelajaran penguatan. Langkah kedua, menggunakan multi-teacher OPD untuk mendistilasi kemampuan lebih dari sepuluh ahli ke dalam satu model terpadu: siswa melakukan distilasi logit seluruh vocab untuk setiap guru berdasarkan reverse KL divergence pada trajektori yang dihasilkannya sendiri, menggabungkan bobot beberapa ahli ke dalam ruang parameter terpadu melalui alignmen tingkat logits, menghindari konflik kemampuan yang umum terjadi pada merging bobot tradisional dan mixed RL. Laporan tersebut juga memperkenalkan Generative Reward Model (GRM): untuk tugas yang sulit diverifikasi dengan aturan, tidak lagi melatih model reward skalar tradisional, tetapi melatih GRM menggunakan data RL yang dipandu oleh rubrik, sehingga jaringan actor memikul sekaligus fungsi generasi dan penilaian, memungkinkan generalisasi ke tugas kompleks dengan hanya sedikit anotasi manual yang beragam. (Sumber: BlockBeats)
Metodologi Pelatihan DeepSeek V4 Berpindah ke OPD, Menggabungkan Model Ahli
KuCoinFlashBagikan






Pelatihan DeepSeek V4 sekarang menggunakan OPD setelah peralihan dari tahap RL campuran V3.2. Ahli dalam matematika, kode, dan mengikuti instruksi dilatih terlebih dahulu, lalu didistilasi menjadi satu model melalui OPD multi-guru. GRM membantu tugas-tugas kompleks dengan data manusia minimal. Peralihan ini selaras dengan protokol CFT yang lebih ketat dan meningkatnya minat terhadap aset berisiko tinggi seiring proyek-proyek mencari efisiensi.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.