DeepSeek V4, Yerel AI Çiplerinde Kararlı Performans Gösteriyor

Yazı | Dünya Model Atölyesi

DeepSeek V4, Çin genelinde yeniden bir şok yarattı.

Parametre boyutu, bağlam uzunluğu, referans puanı… Bu teknik göstergeler, çeşitli haberlerde tekrar tekrar karşılaştırıldı.

Ancak sadece yüzey verilerine odaklanmak, bu yayınların en stratejik çekirdeğini kaçırmaktır.

Geçen üç yıl boyunca Çin'in büyük modelleri, eğitimde ve çıkarımda NVIDIA'ya bağımlı kalırken, yerel çipler sadece yedek seçenek olarak değerlendirildi.

NVIDIA'nın tedarikini kesmesi, Çin'in tüm model topluluğunu endişelendirecek.

Ancak bugün, DeepSeek V4 gücünü kanıtladı:

Ön uç, trilyon parametreli bir büyük model, yerel hesaplama gücü üzerinde kararlı ve verimli bir şekilde çalışabilir.

Bu olayın önemi, model teknik göstergelerinin kendisini aşmıştır.

Yerelleştirilmiş kırılma

Bu yerel uyumun zorluğunu gerçekten anlayabilmek için NVIDIA'nın çip imparatorluğunu anlamalısınız.

NVIDIA'nın sadece çipleri değil, yüksek ölçüde kapalı bir tam ekosistemi de var:

Donanım düzeyinde, GPU çip ailesi ve NVLink, NVSwitch ile çipler arası yüksek hızlı bağlantı sağlanmıştır;

Yazılım üzerinde, CUDA, NVIDIA'nın on yıllar boyunca dikkatle geliştirdiği bir AI işletim sistemidir.

NVIDIA GPU'lar için tamamen özelleştirilmiş, en alt seviyedeki operatörlerden (model hesaplamasının temel birimleri) paralel hesaplama, bellek yönetimi ve dağıtılmış iletişim kadar tüm zincir boyunca yüksek düzeyde optimize edilmiş bir fabrika gibidir.

Yani NVIDIA sadece motor satmıyor, aynı zamanda yolları, benzin istasyonlarını, tamir atölyelerini ve navigasyon sistemlerini de kuruyor.

Dünyanın en üst düzey büyük modellerinin çoğu bu ekosistemde büyümüştür.

Yerel hesaplama gücüne geçmek, tamamen farklı bir durumla karşılaşıyor.

Donanım mimarisi farklı, bağlantı yöntemleri farklı, yazılım yığını olgunluk düzeyi farklı ve araç ekosistemi hâlâ hızlı bir şekilde geriye doğru yakalamaktadır.

DeepSeek, yerel çiplere uyum sağlamak istiyorsa, sadece bir motor değiştirmekle kalmaz, hızla otoyolda seyahat eden bir yarış arabasını hâlâ inşa edilen bir dağ yoluna geçirmek zorundadır.

Küçük bir hata, titreme, durma veya aracın tamamen ilerlememesine neden olabilir.

Bu sefer DeepSeek V4, CUDA yolunu yalnızca izleyerek optimize etmek yerine, yerel hesaplama kapasitesi yazılım yığınına aynı anda uyum sağlamaya başladı.

Kamuoyuna açık bilgilere göre, V4, yerel üretim çıkarım çipleri üzerinde bir atılım gerçekleştirdi, Huawei Ascend 950 çipine derinlemesine uyum sağladı ve Cambricon, modelin yayınlandığı gün bile kararlı bir şekilde çalıştı, gerçek bir Day 0 uyumu sağladı.

Bu, öncü modellerin yerel çip sistemlerinde uygulanabilir hale gelmeye başladığını anlamına gelir.

DeepSeek V4 nasıl yapıyor?

İlk adım, model mimarisi katmanında gerçekleşir.

V4, yerel çiplerin 1M bağlamı zorlamasına izin vermek yerine, önce modeli daha verimli hale getirdi.

Resmi teknik raporda en kritik tasarım, CSA + HCA karışık dikkat mekanizması ve KV Önbelleği sıkıştırması gibi uzun bağlam optimizasyonlarıdır.

Basitçe ifade edersek, geleneksel uzun bağlam çıkarımı, modelin her soruya cevap verirken tüm bir kütüphaneyi açıp taramasını gerektirir ve bu, video belleğini, bant genişliğini ve hesaplama gücünü hızla tüketer.

V4 yöntemi, kütüphane içindeki materyalleri önce yeniden endeksleyip, sıkıştırıp ve filtreleyerek yalnızca en kritik bilgileri hesaplama zincirine göndermektir.

Bu şekilde, 1M bağlam artık donanım gücüne tamamen bağlı kalmadan önce algoritma ile hesap ve video bellek kayıtlarını küçültür.

Bu, yerli çipler için çok önemlidir.

Model, hala yüksek video bellek bant genişliğine ve olgun CUDA kütüphanelerine bağımlıysa, yerel çipler çalışsa bile ucuz ve kararlı bir şekilde çalıştırmak zor olacak.

V4, temelde yerel hesaplama kapasitesine yük bindirmeyi azaltarak çıkarım yükünü düşürüyor.

İkinci adım, MoE mimarisi ve aktive edilen parametre katmanında gerçekleşir.

V4-Pro, toplam parametre sayısı 1,6 trilyon olsa da, her çıkarımda yaklaşık 49 milyar parametre aktif hale gelir; V4-Flash'ın toplam parametre sayısı 284 milyar, her çıkarımda ise yaklaşık 13 milyar parametre aktif hale gelir.

Bu, her çağrıldığında tüm parametreleri çekip hesaplamak yerine, büyük bir uzman ekibi gibi, görev geldiğinde ilgili uzmanları çağırmak anlamına gelir.

Yerel çipler için bu aynı derecede önemlidir.

Her bir çıkarımın taşıması gereken hesaplama yükünü azaltır ve uzun bağlam ile Agent senaryolarının çıkarım kartları tarafından daha kolay işlenmesini sağlar.

Üçüncü adım, operator ve kernel katmanı uyumu.

CUDA ekosisteminin en güçlü yanı, büyük ölçüde alt düzey hesaplamaların NVIDIA tarafından olgunlaştırılmış olması ve birçok yüksek performanslı hesaplamanın doğrudan çağrılabilmesidir.

V4'ün amacı, bazı kritik hesaplamaları NVIDIA'nın kara kutusundan çıkarıp daha kolay taşınabilir ve uyarlanabilir özelleştirilmiş hesaplama yollarına dönüştürmektir.

Daha basit bir dille anlatırsak, V4, motorun en kritik parçalarını sökerek Huawei Ascend, Cambricon vb. üreticilerin kendi çip yapılarına göre yeniden ayarlamasını sağlıyor.

Dördüncü adım, çıkarım çerçevesi ve hizmet katmanıdır.

Yerel çiplerin uyumlaştırılması sadece “Demo çalıştırma” düzeyinde kalırsa, endüstriye büyük bir anlam katmaz. Gerçekten dikkat edilmesi gereken, bu çiplerin çağrılabilir ve ücretlendirilebilir bir hizmet sistemi içine girebilmesidir.

İç testlere göre, Ascend 950PR üzerinde V4 çıkarım hızı önceki sürümlere kıyasla önemli ölçüde arttı ve enerji tüketimi de belirgin şekilde azaldı. Tek bir kartla, belirli düşük hassasiyet senaryolarında performans NVIDIA özel H20'nin iki katını aştı.

DeepSeek, şu anda V4-Pro'nun yüksek performanslı hesaplama gücü nedeniyle hizmet kapasitesinin sınırlı olduğunu ve bu yılın ikinci yarısında Ascend 950 süper düğümlerinin büyük ölçekli piyasaya sürülmesiyle fiyatların önemli ölçüde düşeceği konusunda belirtti.

Ascend gibi yerel donanımların büyük ölçekli üretimiyle V4'ün gelecekteki verimliliği ve maliyet avantajı daha da iyileştirilecektir.

Ancak V4'ün NVIDIA GPU'larını ve CUDA'yı tamamen yerine geçirmediği dikkat çekicidir. Model eğitimi hâlâ NVIDIA'ya bağlı kalabilir, ancak çıkarım işlemleri giderek yerel hale getirilebilir.

Bu aslında oldukça gerçekçi bir ticari yol.

Eğitim aşamalı bir yatırım gerektirir, bir kez eğitilir, bir kez ayarlanır, bir kez güncellenir. Tahmin ise sürekli bir maliyettir, her gün milyonlarca, milyarlarca kullanıcı çağrısı yapar ve her çağrında hesaplama gücü harcanır.

Model şirketlerinin gerçek harcama kalemi, uzun vadede giderek çıkarım (inference) odaklılaşacaktır. Kim daha ucuz ve daha kararlı bir şekilde çıkarım taleplerini karşılayabilirse, endüstriyel uygulamalarda gerçek bir avantaj elde edecektir.

DeepSeek V4, Çin'in öncü modellerinin çıkarım dağıtımında NVIDIA CUDA'ya dayalı olmayan bir yol sunuyor.

Bu adım yeterince ağırlıkta.

V4'ün endüstriyel uygulamalara etkisi

Yerel çiplerin uyumluluğu çalışıp çalışmayacağını yanıtlarken, fiyat daha gerçekçi bir soruyu yanıtlar:

Şirketler bunu ödeyebilir mi?

DeepSeek'in önceki en büyük gücü, ileri düzey modellerin yeteneklerini çok düşük bir fiyata indirgemesiydi.

V3, R1 dönemi böyleydi, V4 de aynı şekilde.

Fark, bu sefer normal bir bağlam penceresinde fiyat rekabeti yapmak yerine, 1M bağlam + Agent yetenekleriyle fiyatları daha da düşürmesidir.

DeepSeek resmi fiyatına göre:

V4-Flash için önbellek vuruşu girişi 0,2 yuan/milyon token, önbellek vuruşu olmayan girdi 1 yuan/milyon token, çıktı 2 yuan/milyon token;

V4-Pro için önbellek vuruşu girişi 1 yuan/milyon token, önbellek vuruşu olmaması girişi 12 yuan/milyon token, çıktı 24 yuan/milyon token.

Onu aynı kategorideki yerel modeller içinde görün:

Ali Qwen3.6-Plus ile 256K-1M aralığında karşılaştırıldığında, V4-Pro çıktısı yaklaşık olarak onun yarısı, V4-Flash ise daha düşük.

MiMo Pro Serisi ile 256K-1M aralığında karşılaştırıldığında, V4-Flash ve V4-Pro daha açıkça daha ucuzdur.

Kimi K2.6'nın bağlamı 256K iken, V4-Pro'nun bağlamı daha uzun ve daha ucuzdur; V4-Flash ise yüksek frekanslı çağrı maliyetini tamamen başka bir seviyeye indirir.

Bu, kurumsal uygulamalar için büyük bir anlam taşımaktadır.

1M bağlam, modelin bir kod deposunu, kalın sözleşme paketlerini, yüzlerce sayfa olan ihraç belgelerini, uzun toplantı tutanaklarını veya bir Agent'in görevleri sıralı olarak gerçekleştirdiği sırada birikmiş geçmiş durumunu tek seferde okuması anlamına gelir.

Geçmişte birçok şirket bu noktada takılı kaldı: model yetenekleri yeterli ama bağlam yetersiz; bağlam yeterli ama fiyat çok yüksek; fiyat kabul edilebilir ama model yetenekleri yeterince istikrarlı değil.

Örneğin, bir şirket, modelin şirket yıllık raporlarını, finansal rapor telekonferanslarını, sektör raporlarını, rakip haberlerini ve dahili tutanakları aynı anda okumasını sağlar.

Bağlam yalnızca 128K veya 256K olduğunda, sistem genellikle sürekli olarak parçalara ayırma, arama ve özetleme yapar; bilgi çok sayıda sıkıştırmada kaybolur.

1M bağlam, modelin orijinal materyali daha iyi korumasını ve eksiklikleri veya kesintileri azaltmasını sağlar.

Örneğin, kod Agent.

Bir kez birkaç satır kod yazmak değil, deposunu okumak, bağımlılıkları anlamak, dosyaları değiştirmek, testleri çalıştırmak ve hatalara göre düzeltmeler yapmak gerekir. Bu süreç, tokenleri tekrar tekrar tüketir.

Her adım pahalıysa, Agent yalnızca bir gösteri yapabilir, ancak tokenlar yeterince ucuzsa gerçek araştırma ve geliştirme sürecine girebilir.

Bu, V4'ün endüstri değeri dedır.

En güçlü model olmayabilir, ancak işletmelerde en sık kullanılan model olabilir.

DeepSeek, AI'yi tekrar az sayıdaki büyük şirketin özel oyuncaklarından, binlerce sektörde ölçeklenebilir bir verimlilik aracına dönüştürüyor.

V4'ün gerçek değeri

1M bağlam, endüstriye çok düşük bir fiyata ulaştığında, DeepSeek V4'in gerçek ağırlığı ortaya çıkar.

Bunların tümü, yerli hesaplama gücü henüz olgunlaşmamış bir temel üzerine kuruludur.

Yerel çip ekosistemindeki sistemik farklar karşısında, DeepSeek ekibi ekosistemin olgunlaşmasını beklemek yerine hemen上线 yaptı.

Yayınlama penceresini tekrar tekrar ertelediler, Huawei gibi ortaklarla aylarca derinlemesine ortak testler yaptılar; bu mühendislik zorluğu, dış dünyanın tahmininin çok ötesinde.

Bu nedenle, V4'ün yerel hesaplama gücü üzerinde neredeyse en üst düzey kapalı kaynaklı modelin çıkarım ve Agent yeteneklerini gerçekleştirmesi özellikle zordur.

V4, kendi başarısıyla, donanım ekosistemindeki geçici farklara rağmen, Çin ekibinin aşırı mühendislik yatırımı ve donanım-yazılım uyumlu yenilikleriyle rekabetçi performanslar elde edebileceğini kanıtlamıştır.

Elbette, tam olgunluğa ulaşmak için hâlâ uzun bir yol var.

Ascend platformının araç zinciri olgunluğu, süper büyük ölçekli kümelerin kararlılığı ve daha fazla dikey senaryoda derin optimizasyon, endüstri taraflarının ortak çabalarına devam etmesini gerektirir.

Ancak V4'in başarısı, sonraki modeller için bir referans yol çizmiştir.

Tamamen bağımsız bir AI tedarik zinciri için güçlü bir destek sağlar.

Belirsiz bir dış ortamda, sınırlar içinde bile aşılabilen bu direnç, basit parametre göstergelerinden daha fazla saygı kazanır.

Onurlandırmaya kapılmaz, iftiraya korkmaz, yola sadık kalır, kendini düzgün tutar.

Bu, DeepSeek resmi tarafından verilen bir metindir ve tam olarak en iyi açıklamasıdır.