DeepSeek V4 Serisi, 1,6 trilyon parametre ve MIT Lisansı ile yayınlandı

iconChainthink
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
24 Nisan'da blockchain üzerindeki haberlere göre DeepSeek, MIT lisansı altında V4 serisini yayınladı. Modeller, şimdi Hugging Face ve ModelScope'da yer alıyor ve V4-Pro (1,6 trilyon parametre) ve V4-Flash (284 milyar parametre) içeriyor; her ikisi de 1 milyon token bağlamını destekliyor. V4 serisi, uzun bağlam maliyetlerini azaltan bir karışık dikkat mekanizması dahil olmak üzere üç mimari iyileştirme sunuyor. V4-Pro, V3.2'nin FLOPs'ünün %27'sini ve KV önbellek belleğinin %10'unu kullanıyor. 32 trilyondan fazla token üzerinde eğitilen modeller, SFT, GRPO ve çevrimiçi distilasyonu kullanıyor. Bu artan verimlilik, yeni token listelemelerine fayda sağlayabilir.

ChainThink mesajı, 24 Nisan'da resmi bilgilere göre, DeepSeek'in açık kaynak V4 serisi önizlemesi MIT lisansı altında yayınlanmıştır ve model ağırlıkları Hugging Face ve ModelScope'da mevcuttur.


Bu seride iki MoE modeli bulunuyor; V4-Pro'nun toplam parametre sayısı 1,6 trilyon ve her token için 49 milyar parametre aktif hale geliyor;


V4-Flash toplam parametre sayısı 284 milyar, her token için 13 milyar parametre etkinleştirilir; her ikisi de 1 milyon token bağlamını destekler.


Bu serinin mimarisi üç yükseltme içerir: Karışık dikkat mekanizması (Sıkıştırılmış Seyrek Dikkat CSA + Aşırı Sıkıştırılmış Dikkat HCA), uzun bağlam maliyetini büyük ölçüde azaltır; 1M bağlam senaryosunda, V4-Pro'nun tek token çıkarımı için FLOPs değeri V3.2'nin %27'si, KV önbelleği bellek kullanımı ise V3.2'nin %10'idir;


Akış sınırlı süperbağlantı mHC, geleneksel kalan bağlantıları değiştirerek katmanlar arası sinyal yayılım stabilitesini artırır; eğitimi hızlandırmak için Muon optimizatörü kullanılır. Bu modelin ön eğitimi 32T token üzerindeki verilerle gerçekleştirilmiştir.


Son eğitim iki aşamada gerçekleşir: önce SFT ve GRPO takviyeli öğrenme yoluyla her alan uzman modeli eğitilir, ardından çevrimiçi öğretimle son model olarak birleştirilir.


V4-Pro-Max, mevcut en güçlü açık kaynak modeli olduğunu iddia ediyor, kodlama performansı üst düzeyde ve çıkarım ile agent görevlerinde kapalı kaynak öncü modellerle olan fark önemli ölçüde kapanıyor;


V4-Flash-Max, yeterli düşünme bütçesine sahip olduğunda Pro'ya yakın çıkarım performansı gösterir, ancak saf bilgi ve karmaşık agent görevlerinde parametre boyutuyla sınırlıdır. Model ağırlıkları FP4+FP8 karışık hassasiyetle saklanır.

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.