DeepSeek V4 Eğitim Yöntemi, OPD'ye geçiş yapar ve Uzman Modelleri Birleştirir

iconKuCoinFlash
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
DeepSeek V4 eğitimi, V3.2’nin karışık RL aşamasından sonra artık OPD kullanıyor. Matematik, kod ve talimat takibi uzmanları önce eğitilir, ardından çok öğretmenli OPD ile bir modele yoğunlaştırılır. GRM, az sayıda insan verisiyle karmaşık görevleri destekler. Bu geçiş, daha sıkı CFT protokolleriyle ve projelerin verimlilik arayışıyla birlikte risk alım varlıklarına artan ilgiyle uyumludur.

ME Haberleri'ne göre, 24 Nisan (UTC+8), Beating izleme sistemi tarafından tespit edildiğine göre, DeepSeek V4'ün son eğitim yöntemi büyük ölçüde değiştirildi: V3.2'nin karışık RL aşaması, tamamen On-Policy Distillation (OPD, çevrimiçi strateji buharlaştırması) ile değiştirildi. Yeni süreç iki adımdan oluşuyor. İlk adımda, matematik, kod, Agent ve talimat takibi alanlarında, V3.2 akış hattı temel alınarak alan uzmanı modelleri ayrı ayrı eğitiliyor; her uzman önce ince ayarlanıyor, ardından GRPO ile güçlendirilmiş öğrenme uygulanıyor. İkinci adımda, onlarca uzmanın yetenekleri, çok öğretmenli OPD yöntemiyle tek bir birleşik modele buharlaştırılıyor: Öğrenci, kendi oluşturduğu izler üzerinde, her bir öğretmen için tam kelime dağarcığı logit buharlaştırması yaparak reverse KL dağılımını uyguluyor; bu sayede logit düzeyinde hizalama ile birden fazla uzmanın ağırlıkları tek bir parametre uzayında birleştiriliyor ve geleneksel ağırlık birleştirme ile karışık RL'de sıkça görülen yetenek çatışmaları önleniyor. Rapor ayrıca Generative Reward Model (GRM, üretken ödül modeli) öneriyor: Kurallarla doğrulanması zor görevler için geleneksel skaler ödül modelleri eğitilmiyor; bunun yerine rubrik ile yönlendirilmiş RL verileriyle GRM eğitiliyor ve actor ağı aynı anda hem üretim hem de değerlendirme yeteneğini üstleniyor; bu sayede az sayıda çeşitlendirilmiş insan etiketlemesiyle karmaşık görevlere genelleme sağlanabiliyor. (Kaynak: BlockBeats)

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.