DeepSeek V4 Eğitim Yöntemi, OPD'ye geçiş yapar ve Uzman Modelleri Birleştirir

ME Haberleri'ne göre, 24 Nisan (UTC+8), Beating izleme sistemi tarafından tespit edildiğine göre, DeepSeek V4'ün son eğitim yöntemi büyük ölçüde değiştirildi: V3.2'nin karışık RL aşaması, tamamen On-Policy Distillation (OPD, çevrimiçi strateji buharlaştırması) ile değiştirildi. Yeni süreç iki adımdan oluşuyor. İlk adımda, matematik, kod, Agent ve talimat takibi alanlarında, V3.2 akış hattı temel alınarak alan uzmanı modelleri ayrı ayrı eğitiliyor; her uzman önce ince ayarlanıyor, ardından GRPO ile güçlendirilmiş öğrenme uygulanıyor. İkinci adımda, onlarca uzmanın yetenekleri, çok öğretmenli OPD yöntemiyle tek bir birleşik modele buharlaştırılıyor: Öğrenci, kendi oluşturduğu izler üzerinde, her bir öğretmen için tam kelime dağarcığı logit buharlaştırması yaparak reverse KL dağılımını uyguluyor; bu sayede logit düzeyinde hizalama ile birden fazla uzmanın ağırlıkları tek bir parametre uzayında birleştiriliyor ve geleneksel ağırlık birleştirme ile karışık RL'de sıkça görülen yetenek çatışmaları önleniyor. Rapor ayrıca Generative Reward Model (GRM, üretken ödül modeli) öneriyor: Kurallarla doğrulanması zor görevler için geleneksel skaler ödül modelleri eğitilmiyor; bunun yerine rubrik ile yönlendirilmiş RL verileriyle GRM eğitiliyor ve actor ağı aynı anda hem üretim hem de değerlendirme yeteneğini üstleniyor; bu sayede az sayıda çeşitlendirilmiş insan etiketlemesiyle karmaşık görevlere genelleme sağlanabiliyor. (Kaynak: BlockBeats)