DeepSeek V4 Serisi, 1,6 trilyon parametre ve MIT Lisansı ile yayınlandı

ChainThink mesajı, 24 Nisan'da resmi bilgilere göre, DeepSeek'in açık kaynak V4 serisi önizlemesi MIT lisansı altında yayınlanmıştır ve model ağırlıkları Hugging Face ve ModelScope'da mevcuttur.

Bu seride iki MoE modeli bulunuyor; V4-Pro'nun toplam parametre sayısı 1,6 trilyon ve her token için 49 milyar parametre aktif hale geliyor;

V4-Flash toplam parametre sayısı 284 milyar, her token için 13 milyar parametre etkinleştirilir; her ikisi de 1 milyon token bağlamını destekler.

Bu serinin mimarisi üç yükseltme içerir: Karışık dikkat mekanizması (Sıkıştırılmış Seyrek Dikkat CSA + Aşırı Sıkıştırılmış Dikkat HCA), uzun bağlam maliyetini büyük ölçüde azaltır; 1M bağlam senaryosunda, V4-Pro'nun tek token çıkarımı için FLOPs değeri V3.2'nin %27'si, KV önbelleği bellek kullanımı ise V3.2'nin %10'idir;

Akış sınırlı süperbağlantı mHC, geleneksel kalan bağlantıları değiştirerek katmanlar arası sinyal yayılım stabilitesini artırır; eğitimi hızlandırmak için Muon optimizatörü kullanılır. Bu modelin ön eğitimi 32T token üzerindeki verilerle gerçekleştirilmiştir.

Son eğitim iki aşamada gerçekleşir: önce SFT ve GRPO takviyeli öğrenme yoluyla her alan uzman modeli eğitilir, ardından çevrimiçi öğretimle son model olarak birleştirilir.

V4-Pro-Max, mevcut en güçlü açık kaynak modeli olduğunu iddia ediyor, kodlama performansı üst düzeyde ve çıkarım ile agent görevlerinde kapalı kaynak öncü modellerle olan fark önemli ölçüde kapanıyor;

V4-Flash-Max, yeterli düşünme bütçesine sahip olduğunda Pro'ya yakın çıkarım performansı gösterir, ancak saf bilgi ve karmaşık agent görevlerinde parametre boyutuyla sınırlıdır. Model ağırlıkları FP4+FP8 karışık hassasiyetle saklanır.