DeepSeek V4 ve Meituan LongCat 2.0 Trilyon Parametre Sınırını Aşıyor

icon MarsBit
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
DeepSeek V4 ve Meituan LongCat 2.0-Preview, trilyon parametre eşiğini aştı ve 1M bağlam uzunluğu için bir destek seviyesine sahip. DeepSeek V4, NVIDIA'nın CUDA'sından Huawei Ascend'e geçti. LongCat 2.0, eğitim ve çıkarım için 50.000–60.000 yerel çip kullanıyor. Yerel AI modellerinin popülerliği arttıkça korku ve açgözlülük endeksi yüksek seviyede kalıyor.

Yerel AI şirketleri kendi yollarını kurmaya başlıyor.

Yılın başında, yurt dışındaki teknoloji dünyası Çin'in hesaplama gücü sorununa dikkat çekti.

Ocak ayında Musk, bir podcast'te Çin'in AI hesaplama gücüyle "dünyanın diğer bölgelerini çok geride bırakacağını" söyledi. Şubat ayında OpenAI CEO'su Altman, Çin'in yapay zeka alanında teknolojik ilerlemesinin "inananı şaşırtacak kadar hızlı" olduğunu söyledi. NVIDIA CEO'su Huang Renxun da birçok kez açıkça şunu ifade etti: "Çin'in AI teknolojisine yönelik kısıtlamalar, kendi kendine geliştirme sürecini hızlandırır."

2025, tedarik tarafının bir araya geldiği yıl olarak kabul edilebilir. Moore Threads, MuXi Technologies gibi yerel GPU'lar ardışık olarak sermaye piyasasına girmiş ve yerel büyük modellerin endüstriyel temeli daha da derinleşmiştir. 2026 yılında, değişiklikler tedarik zincirinin altına doğru yayılmıştır; Nisan ayının sonunda, birkaç yerel büyük model yeni sürümlerini yayınlamıştır.

20 Nisan'da Moonshot, uzun mesafeli kod yazmada uzman Kimi K2.6 modelini tanıttı; 24 Nisan'da DeepSeek V4 yayınlandı; ardından Meituan LongCat-2.0-Preview test aşamasına girdi. Her ikisinin de toplam parametre boyutu trilyonu aştı ve her ikisi de 1M süper uzun bağlamı destekliyor.

Dikkat edilmesi gereken nokta, DeepSeek V4'ün NVIDIA sistemi üzerinden Huawei Ascend platformuna geçiş ve uyum sağlaması;美团 LongCat2.0'nin ise trilyon parametreli büyük modelinin eğitim ve çıkarım süreçlerinin tamamının 50.000 ila 60.000 adet yerel hesaplama çipi kullanılarak gerçekleştirilmesidir.

Uzun süredir Çinli AI çalışanları, mevcut olgun çözümlerden faydalanma stratejisini benimsemiştir. Şimdi yerel AI şirketleri kendi yollarını çizmeye başlıyor.

Çölde yol inşa etmek

Zor bir görevi nasıl tamamlarsınız?

Yazar Arthur Clarke'in cevabı: "Tek yol, imkânsızlığı ilerlemenin başlangıcı hâline getirmektir."

DeepSeek V4, ilk planlanan tarihten son sürümün yayınlanması kadar birçok kez tarih değiştirildi. Dışarıda yaygın olarak tahmin edilen bir neden, temel kodun NVIDIA CUDA'dan taşınması gerektiğidir.

CUDA ekosistemi, onlarca yıllık geliştirme sonucu güçlü ve tüm araçlarla donatılmış bir geliştirme platformu haline gelmiştir. Yerel hesaplama ekosistemi henüz başlangıç aşamasındadır. Kod taşıma süreci, geliştirme ekiplerinin büyük ölçüde alt yapı çerçevesini yeniden yapılandırmalarını gerektirir.

Sonunda DeepSeek, V4'ün yayınlandığı iki gün sonra JPMorgan, V4'ün Huawei Ascend çipine başarıyla entegre edildiğini ve yerel hesaplama gücünün öncü AI çıkarımında uygunluğunu doğruladığını belirten bir raporda bulundu; ayrıca DeepSeek, karışık dikkat mimarisi gibi temel teknoloji yenilikleriyle çıkarım maliyetlerini önemli ölçüde düşürdü.

DeepSeek, teknik meraklılar tarafından maliyeti düşürerek verimliliği artırıyor ve bir büyük modelin yarısının işini yeniden yazarak sert bir geçiş gerçekleştiriyor. Aynı gün teste açılan Meituan LongCat-2.0-Preview ise doğrudan yerel hesaplama gücü üzerinde çalışıyor.

Mühendislik düzeyinde yerel hesaplama gücüyle ilgili hangi zorluklar vardır? LongCat-2.0-Preview örneğiyle inceleyelim.

İlk zorluk, fiziksel düzeydedir. Yerel donanım tabanının video bellek kapasitesi ve bant genişliği NVIDIA çiplerinden farklıdır; trilyon parametreli modelleri eğitmek ve dağıtmak sırasında Meituan ekibi, paralel stratejileri ayarlamak ve video belleğini optimize etmek için büyük çaba harcamak zorunda kalmıştır.

İkinci zorluk, yazılım ekosisteminin olgunluğudur; yerel çip özelliklerine uygun olarak eğitimin tamamen doğru ve tekrarlanabilir olmasını sağlamak için takım, temel operatörleri yeniden yazmalı ve tamamen belirleyici operatörler geliştirmelidir.

Üçüncü zorluk, 50.000-60.000 adet yerel hesaplama kartından oluşan büyük ölçekli kümelerin kararlılığıdır; donanım hataları kaçınılmazdır. Bu nedenle, ekip tam bir hata toleransı ve otomatik kurtarma sistemi kurmuştur.

Son olarak, yerel donanımın özelliklerine uygun olarak takım, eğitim çerçevesini ve model yapısını özel olarak optimize etti, genel çerçevelerin uyum sınırlarını aştı ve hesaplama performansını artırdı.

DeepSeek'in algoritma optimizasyonu, hesaplama gücü için olan eşikleri düşürdü ve model fiyatlarını düşürdü; Meituan'ın mühendislik uygulamaları ise yerli çiplerin uygulanabilirliğini kanıtladı. Bu araştırmalar, yerli çip ekosistemi için mühendislik kapasitesi ve deneyim birikimine katkıda bulundu.

Liang Wenheng şöyle demişti: “Bir yılan balığı olmak istemedik, sadece rastlantısal olarak bir yılan balığı olduk.” Şimdi ise “yılan balığı etkisi” ortaya çıkmıştır ve DeepSeek yalnız değildir.

Tek noktadan sisteme

Tencent Cloud'dan Tang Daosheng şu benzetmeyi yapmıştı: "Büyük modeller motor, kullanıcılar ise sürücülerdir." Kullanıcılar kolayca motorun performansını fark eder, ancak iyi sürücüler, yakıtın ve şasinin de aynı derecede önemli olduğunu fark eder.

Çin'in hesaplama gücü gelişimi, tam bir zincirin koordineli ilerlemesine dayanmaktadır. Her aşamanın kritik şirketleri, eksikliklerini sürekli olarak gidermektedir.

Üretim tarafında, açık veriler, Çin'in çip üretiminin sürekli arttığını gösteriyor, ancak bu yapı "antal" şeklindedir; 28nm ve üzeri olgun prosesler absolute ana gücü oluştururken, 14nm ve altı ileri proses kapasitesi hala nadirdir.

EUV litografi makinesi eksikliği gerçekliğiyle karşı karşıya kalan SMIC, Hua Hong Semiconductor gibi şirketler, çoklu marjinal teknolojiler üzerinde çalışarak fiziksel sınırlar içinde bir denge arıyor. Birden fazla haber kaynağı, SMIC'in N+2 teknolojisini (7nm'e denk) verimliliğinin %80'in üzerinde geçtiğini gösteriyor; bu da ticari üretimin eşiğini aştığı anlamına gelir.

Hesaplama gücü tarafında, yerel çipler, NVIDIA'nın tek kart hesaplama gücüyle hâlâ fark bulunmaktadır. Huawei Ascend 910C gibi ürünlerin uygulamaları, uç düzeyde bir küme doğrusal hızlanma oranı ile büyük ölçekli model eğitimi yapılabilir olduğunu göstermektedir.

Eko sistemini kazanan, dünyayı kazanır. NVIDIA CUDA'nın oluşturduğu koruma duvarının derin olmasının önemli bir nedeni, evrensel bir yazılım-hardware uyumluluk standardı oluşturulmasıdır.

Endüstri profesyonelleri de bunu fark ettiler. Örneğin, Cambricon, ana çerçevelerle uyumlu bir temel yazılım platformu sundu ve geliştiricilerin geçiş maliyetini düşürdü. Zhiyuan Yapay Zeka Enstitüsü'nün öncülük ettiği açık kaynak sistemi, üst düzey modellerin çeşitli yerel çip türlerinde çalışabilmesini sağlayan birleşik bir alt katman arayüzü oluşturdu.

Yerel internet devletlerinden de birçok hareket var; Baidu'nun çift yol stratejisi ve ByteDance'ın 100 milyar dolarlık yatırımı, hesaplama altyapısı için daha iyi çözümler arıyor.

Kamu verilerine göre, geçen yıllar boyunca Meituan, en az 21 adet yarı iletken/akıllı donanım ve genel büyük modeller alanlarını kapsayan şirkete yatırım yaptı. Bunlar arasında çip hesaplama katmanındaki Moore Threads ve Muxi Shares, ayrıca görsel çip alanında Axensense gibi şirketler; aynı zamanda yeni malzemeler gibi alt sektörlerde Guangzhou Zhongshan ve Dongfang Suanxin gibi birçok şirket yer alıyor.

Teknik alanda sürekli takip edilirken, endüstri sermayesi aynı zamanda hesaplama gücüne yatırımcı ve ortak olarak da harekete geçerek yavaş yavaş olumlu bir döngü oluşturuyor.

Sayısal dünyadan gerçek görevlere

Şu anda yapay zeka üçüncü dalga önemli bir dönüm noktasındadır; büyük modeller, onu zayıf yapay zekadan genel yapay zekaya doğru itiyor ve daha da önemlisi, robotları 1.0 özel robot döneminden 2.0 genel gövdeli akıllı döneme taşıyor.

Pekin Zhiyuan Yapay Zeka Enstitüsü Başkanı Wang Zhongyuan, yapay zekanın yeteneklerinin temel odak noktasının fiziksel dünya olduğunu vurguladı.

Bir yandan, birçok yerel üretici, büyük modellerin bulutta "binlerce kitap okumasını" sağlayarak modelin zekasını ve mantıksal çıkarımını geliştirmeye çalışıyor. Diğer yandan, büyük modellerin "binlerce yol gitmesini" de sağlamalı; örneğin, Wenxin büyük modeli otonom sürüş karar sistemlerine entegre edilmiştir; Hunyuan büyük modelinin endüstriyel kalite kontrol çözümü, birden fazla üretim hattı senaryosunda görülmektedir.

Meituan'un yemek teslimatı, mağaza hizmetleri, konaklama ve seyahat gibi işleri, günlük yaşamın en karmaşık görev yürütme ağını oluşturur. Burada tüccarların mutfaklarında yemeklerin hazırlanma hızından, bisikletli kuryelerin kasırgalı havalarda izlediği rotalara, kullanıcıların gece yarısı bir «hotpot yemek istiyorum» sözüne kadar sayısız gerçek senaryo mevcuttur.

Wang Xing, Meituan uygulamasını öncelikle “AI destekli uygulama” haline getirmeyi açıkça belirtti. Bu, LongCat’ın eğitim hedefinin sadece “hangi yerin küçük et yemeği iyi” sorusuna cevap vermek olmadığını, aynı zamanda “bu restoranı bulmak, en iyi toplu satın alma kuponunu seçmek ve iki Cuma akşamı saat 7’lik masa rezervasyonu yapmak” olacağını anlamına geliyor.

Bu, görev tesliminin etkisinin özellikle önemli olduğunu ve Meituan'un fiziksel dünyaya dayalı bir AI altyapısı oluşturmayı neden vurguladığını açıklar.

Parametrelerden hesaplama gücüne kadar olan süreç tamamlanırken, yerli büyük modeller, «kullanılabilir»den «kolay kullanılır» durumuna geçiş yapıyor.

Bu yolda kısayol yok. Gelecekte, algoritmalar, hesaplama gücü, sermaye ve senaryolar sürekli kimyasal tepkime verdiğinde, Çin AI hikayesi de «tek noktada atılım»dan «sistemsel evrim» sayfasına geçecektir.

Bu yazı, WeChat hesabından "Lan Dong Ticaret" tarafından yazılmıştır, yazar: Yu Weilin

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.