ME Haberleri'ne göre, 24 Nisan (UTC+8) tarihinde Beating tarafından izlendiğine göre, DeepSeek'in açık kaynak V4 serisi önizleme sürümü, MIT lisansı altında Hugging Face ve ModelScope'da ağırlıklarını yayınladı. Seri, iki MoE modelini içeriyor: V4-Pro toplam 1,6T parametre ve her token için 49B (49 milyar) aktive ediliyor; V4-Flash toplam 284B (284 milyar) parametre ve 13B (13 milyar) aktive ediliyor. Her iki model de 1M token bağlamını destekliyor. Mimari üç yükseltme: Karışık dikkat mekanizması (CSA + HCA) uzun bağlam maliyetini büyük ölçüde azaltıyor; 1M bağlamda V4-Pro'nun tek token çıkarım FLOPs'ı V3.2'nin %27'si, KV önbelleği (çıkarım sırasında geçmiş bilgileri saklayan GPU bellek kullanımı) V3.2'nin %10'u. Manifold kısıtlı süper bağlantı mHC, geleneksel kalan bağlantıları değiştirerek katmanlar arası sinyal yayılım kararlılığını artırıyor. Eğitimde, yakınsamayı hızlandırmak için Muon optimizasyonu kullanılıyor. Ön-eğitim verisi 32T tokeni aşıyor. Son eğitim iki aşamalı: Önce SFT ve GRPO takviyeli öğrenme ile her alan uzmanı eğitiliyor, ardından çevrimiçi öğretimle tek bir modele birleştiriliyor. V4-Pro-Max (en yüksek çıkarım gücü modu), şu anda en güçlü açık kaynak model olduğunu iddia ediyor; kodlama performansı en üst düzeyde, çıkarım ve agent görevlerinde kapalı kaynak öncü modellerle olan fark büyük ölçüde kapanıyor. V4-Flash-Max, yeterli düşünme bütçesi verildiğinde çıkarım performansı Pro'ya yakın olsa da, sadece bilgi ve karmaşık agent görevlerinde parametre boyutu sınırlamasından etkileniyor. Ağırlıklar FP4+FP8 karışık hassasiyetle saklanıyor. (Kaynak: BlockBeats)
DeepSeek V4 Açık Kaynak Modeli, 1,6 T Parametre ve MIT Lisansı ile Başlıyor
KuCoinFlashPaylaş






DeepSeek, 24 Nisan (UTC+8) tarihinde MIT lisansı altında açık kaynaklı V4 serisi modellerinin önizlemesini başlattı. V4-Pro ve V4-Flash MoE modelleri sırasıyla 1,6 trilyon ve 284 milyar parametre içeriyor ve 1 milyon token bağlam desteği sunuyor. V4-Pro, V3.2'ye kıyasla çıkarım FLOPs'ını %73 ve KV önbellek belleğini %90 azaltıyor. Ağırlıklar Hugging Face ve ModelScope üzerinde mevcut. Yeni token listelemeleri, geliştirilen verimlilik ve açık erişimden faydalanabilir.
Kaynak:Orijinalini göster
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir.
Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.