Zhipu AI, 400 token/s API'sini başlatınca hisse senedi fiyatı %26 arttı

Metin | AIDeepDive

Bugün, "küresel büyük modelin ilk hissesi" olan Zhipu (02513.HK) yeniden sıçradı.

Fiyat, işlem süresi içinde %30'u aştı. Kapanışta 1.282 Hong Kong Doları ile günlük artış %26'nın üzerinde oldu ve piyasa değeri 571,57 milyar Hong Kong Doları ile yeniden rekor seviyeye ulaştı.

Büyük model

Bu patlamayı tetikleyen, bir teknik göstergedir: 400 tokens/s.

22 Mayıs'ta ZhiPu, GLM-5.1-highspeed API'sini resmen kurumsal müşterilere açtı; en kritik temel parametre yalnızca bir tanesi: model çıktısı saniyede 400 token hızına ulaştı ve küresel büyük model üreticilerinin API hız sınırını yeniden tanımladı.

Bu, yine bir yerli büyük modelin kamu ilişkileri için bir pazarlama çabası olacakmış gibi görünüyordu, ancak teknik detayları dikkatle inceledikten sonra sermaye piyasalarının ardındaki mantığı anladım.

400 token/s nedir?

Model, saniyede yaklaşık 200 karakter üretiyor, bu da bir profesyonel yazarın bir dakikadaki yoğun üretiminin saniyeye sıkıştırılmış hali.

Bir yazarın birkaç gün boyunca masasında oturarak yazdığı metin miktarını, GLM-5.1 Hızlı Sürümü 1 dakikada tamamlıyor; bir mühendisin üç gün boyunca emek harcayarak tamamladığı bir sistem yeniden yapılandırma görevini, bir fincan kahve içme süresinde tamamlıyor.

01 Hız, düşündüğünüzden daha önemli

Hız, her zaman AI modelleri arasındaki rekabette en çok gözden kaçırılan boyut olmuştur.

Geçen üç yıl boyunca büyük modeller için yarış, iki alanda yoğunlaştı: parametre boyutu (modeller daha büyük ve daha akıllı) ve fiyat savaşı (Tokenlar daha ucuz ve daha erişilebilir). "Hız", asla ana karakter olmamıştır.

Çünkü geçmişteki “hızlılık”, genellikle model parametrelerini küçülterek sağlanırdı. Hızı artırmak için daha küçük ve daha sade modeller kullanılmalıydı, ancak bu, kapasite kaybına neden olurdu.

GLM-5.1 Hızlı Sürümün bu kezki önemi, üst düzey tam boyutlu temel yetenekleri korurken hızı 400 token/s seviyesine çıkarmasıdır.

Yerel modeller açısından veya uluslararası ölçekte bakıldığında, "bayrak yeteneği" ve "mükemmel düşük gecikme" ilk kez uzlaşmaksızın bir araya getirildi.

Büyük model

Neden hız bu kadar kritik? Çünkü AI'nın ana savaş alanı temel bir değişim geçiriyor.

AI, ChatBot'tan Agent nesiline geçtiğinde, soru-cevap artık AI'nın ana senaryosu değil; bir görevi tamamlamak için Agent, modelin onlarca hatta yüzlerce kez kendi kendini çağırmasını gerektirir: kod yazmak, arayüzleri çağırmak, bilgi aramak, araçları kullanmak...

Bu çalışma modunda, her çağrı arasındaki gecikme acımasızca birikerek artar. 50 çağrı gerektiren bir görevde, her çağrıda 1 saniye tasarruf edilirse, tüm görev yaklaşık 1 dakika daha hızlı tamamlanır. AI programlama asistanları, sesli etkileşimler ve ticari karar sistemleri için bu fark hayatta kalma veya yok olma farkını yaratabilir.

Daha derin bir düzeyde, sabit bir zaman bütçesi içinde daha hızlı çıkarım, modelin daha derin çıkarım yollarını ve daha fazla turda kendi kendini doğrulamasını mümkün kılar. Hız, sistem ölçütünden akıllılığın kendisi sınırına dönüşüyor.

02 Hız konusu ne kadar zor?

Şu anda endüstride hız açısından durum nedir?

Önde gelen üreticiler arasında OpenAI'nin GPT-4o'su yaklaşık 100–150 token/s, Anthropic'ın Claude Sonnet serisi yaklaşık 80–120 token/s, yerel ana akım üst düzey model API'leri çoğunlukla 50–100 token/s aralığında. 400 token/s, sektör ortalamasının yaklaşık 3 ila 5 katıdır.

Daha da önemlisi, bu fark daha fazla hesaplama gücü harcayarak kapatılamaz.

8 adet H200 GPU'ya sahip bir sunucu, teorik olarak saniyede 38 TB'a kadar veri taşıyabilir. GLM-5.1 için, tek bir token üretmek yaklaşık 42 GB aktif parametre okumayı gerektirir; saf teorik hesaplamalara göre, bu 1000 token/s'ye yaklaşabilir.

Ancak gerçek sistemler genellikle sadece onlarca token/s çalıştırabiliyor.

Büyük model

Bu, bir ölçek farkıdır. GPU yeterince hızlı değil,而是 çok fazla zaman bekleme, boşta kalma ve geçersiz zamanlama üzerinde harcanıyor.

ZhiPu, bu sefer çıkarım motoru, paralel strateji ve ağ mimarisi olmak üzere üç düzeyde aynı anda yenilikler gerçekleştirdi ve nihai hızda bir atılım sağladı.

Büyük model

03 Üç katmanlı teknoloji bir araya gelerek donanım fiziksel sınırına yaklaşıyor

Büyük modeller aslında şu şekilde çalışır: büyük model, bağımsız operatörlere ayrılır; her operatör, bir kez hesaplama çekirdeğini (kernel) başlatır, hesaplama tamamlandığında durur, senkronizasyon bekler ve ardından bir sonraki operatörü başlatır.

Eğitim aşamasında her hesaplama birkaç saniyeden birkaç dakikaya kadar sürebiliyor; bu başlatma ve bekleme maliyetleri tamamen göz ardı edilebilir. Ancak çıkarım sırasında, her token üretimi için bir kritik adım sadece birkaç on mikrosaniye sürebiliyor; bu durumda başlatma ve bekleme maliyetleri göreceli olarak önem kazanıyor.

TileRT'nin temel fikri: Tüm modeli sürekli çalışan bir motor olarak derlemek, bir kez başlatmak ve asla durdurmamak.

TileRT, kod derleme aşamasında modelin tüm hesaplama mantığını statik olarak tek sürekli bir hattına genişletir; çalışma zamanında GPU her zaman yüksek hızda çalışır, hesaplama, veri taşıma ve iletişim paralel olarak ilerler, ara sonuçlar mümkün olduğunca GPU'nun içindeki yüksek hızlı önbellekte tutulur ve tekrar tekrar yavaş video belleğe yazılır ve yeniden okunmaz.

Büyük model

Burada bir kritik tasarım detayı var: Warp özelleştirme.

Warp'ı anlamak için GPU'nun çalışma şeklini anlamalısınız. GPU ile CPU arasındaki en büyük fark, binlerce nispeten basit hesaplama birimine sahip olmasıdır; bu birimler 32'lik gruplar halinde bir araya getirilir ve bu gruplara Warp denir.

Bir Warp içindeki 32 birim, bir askeri çete gibi, her zaman aynı anda aynı komutu gerçekleştirmelidir.

Geleneksel çerçevede tüm Warp'lar aynı komut dizisini yürütür; TileRT, farklı Warp gruplarına farklı sorumluluklar verir: bir kısmı bir sonraki veri setini önceden getirmekten, bir kısmı matematiksel hesaplamalardan, bir kısmı ise diğer GPU'larla iletişim kurmaktan sorumludur. Üç grup aynı anda çalışır, akış halinde birbirini tamamlar ve birbirini beklemaz.

Bir işçinin tuğla taşıma, duvar örmeyi ve kontrolü sıralı olarak yapması yerine, tuğla taşıma grubu, duvar ören grup ve kontrol grubu aynı anda çalışır hale gelir.

Tek kart içi verimlilik çözüldü, çoklu kart paralel işlemi yeni bir zorluk getirdi.

Endüstri standardı, tensör paralellidir (Tensor Parallel): Model ağırlık matrisi birkaç parçaya bölünür, her GPU bir parçayı sorumlu tutar ve hesaplamalar tamamlandıktan sonra yüksek hızlı bağlantı (NVLink) aracılığıyla sonuçlar birleştirilir.

Bu çözüm, matris çarpımı gibi düzenli yoğun hesaplamalar için çok iyi sonuç verir ve şu anda tüm büyük modellerin çıkarım çerçevelerinin standart çoklu GPU çözümüdür.

GLM-5.1, DeepSeek tarafından geliştirilen **MLA (Multi-head Latent Attention, Çoklu Kafalı Gizli Dikkat)** mekanizmasını kullanır.

Geleneksel dikkat mekanizması, her adımda hesaplanan büyük miktarda ara veriyi (KV Cache) tamamen saklamak zorunda kalır ve bu çok fazla GPU belleği tüketir; MLA yaklaşımı, bu ara verileri önce kompakt bir "gizli vektöre" sıkıştırarak saklar ve kullanırken yeniden genişletir, bu da GPU belleği ihtiyacını büyük ölçüde azaltır ve çıkarım verimliliğini artırır.

Ancak MLA hesaplama sürecinde, büyük miktarda geçmiş bilgi içerisinden seyrek indeksleme yapmak gerekir: Bu, devasa bir kütüphanede önce en ilgili birkaç kitabı hızlıca bulup ardından bu kitapları detaylı okumaya benzer.

"Kitap bulma" adımı, küresel bilgiye bağlıdır ve çoklu kartlara dağıtılmaya uygun değildir; "derin okuma" ise çoklu kartlarda paralel işlem için uygun yoğun hesaplama adımıdır. Tüm 8 GPU'nun "kitap bulma" işlemine zorla dahil edilmesi, GPU'lar arasındaki senkronizasyon iletişimine büyük miktarda zaman harcamaya neden olur.

TileRT çözümü, GPU'yu heterojen olarak çalıştırmaktır: GPU 0, seyrek indeksleme ve rota kararları için "kütüphane araştırmacısı" rolünü üstlenir; GPU 1–7, yoğun dikkat hesaplamaları ve matris işlemleri için "detaylı analist" rolünü üstlenir. İki çalışan grubu, kendi en uygun paralel stratejilerini kullanarak tüm hesaplama katmanını birlikte tamamlar.

Büyük model

Daha sonra, TileRT, GPU'lar arasındaki iletişim işlemlerini de doğrudan yürütme hattına entegre ederek bunları bağımsız adımlar olarak değil. Dışarıdan bakıldığında, tüm 8 GPU sistem bir dikkat hesaplamasını tamamlamak için yalnızca bir kez çekirdek başlatır; iç iletişim ve hesaplama, sürekli bir hattın içinde sorunsuz bir şekilde tamamlanır.

Yukarıdaki iki katman, tek bir makine içindeki sorunları çözer. Küme, yüzlerce hatta binlerce GPU'ya genişlediğinde, GPU'lar arasındaki veri aktarımı kendisi yeni bir sınırlama haline gelir.

Endüstride yaygın olarak kullanılan yöntem, NVIDIA'nın resmi önerisi ve sektörün mutlak standartı olan ROFT (Rail-Optimized Fat-Tree)'tir.

Yapısı bir ağaçtır: Sunucular, önce alt katmandaki Leaf anahtarlarına (erişim katmanı, doğrudan sunuculara yönelik) bağlanır; Leaf anahtarları, Spine anahtarlarına (ana katman, farklı Leaf’ler arasındaki bağlantıyı sağlar, bir otoyol düğümü gibi) yukarı doğru bağlanır. İki GPU arasında veri aktarımı, "önce Spine’e yukarı, ardından hedef Leaf’e aşağı" gitmek zorundadır ve en az 3 atlamayı içerir.

Az sayıdaki bağlantıda trafiğin yoğunlaşmasını önlemek için bu mimari, verileri birden fazla yol arasında dağıtmak için ECMP algoritmasına dayanır ve internet trafiği "istatistiksel olarak eşit" olduğunda iyi çalışır.

Ancak çıkarım senaryolarındaki trafiğin tamamen dengesiz olduğunu. Farklı isteklerin bağlam uzunlukları onlarca kat kadar farklı olabilir, GPU'lar arasında KV Önbelleği aktarımı neredeyse rastgele yönlendirilir, bazı yaprak anahtarlar periyodik olarak sıcak noktaya dönüşür ve geri basınç mekanizmasını tetikleyerek tıkanıklığı yerel düzeyden tüm zincire yayılır. Bu tıkanıklık, protokol ayarlarıyla çözülemez; bu, topolojik yapıdan doğan bir sonuçtur.

Büyük model

ZCube'un temel atılımı: Bu tür tıkanıklıkları mimari düzeyde fiziksel olarak olası kılmasın.

Temel tasarım iki adımdan oluşur:

Birinci adım, Spine omurga katmanını kaldırın ve ağı düzleştirin. Tüm Leaf anahtarları tek ve çift numaralı olarak iki gruba ayırın ve bu iki grup arasında tamamen birbirine bağlayın. Herhangi bir tek numaralı anahtar, tüm çift numaralı anahtarlarla bağlantılı olacak ve tam tersi de geçerlidir. Herhangi iki GPU arasında en fazla iki anahtar üzerinden iletişim sağlanacak ve atlamalar 3'ten 2'ye düşürülecektir.

Büyük model

İkinci adım, aynı zamanda en ince nokta: Her bir GPU ağ kartı, iki farklı şekilde iki farklı anahtar grubuna bağlanır. Bu özel topoloji, tüm ağda herhangi iki GPU arasında tam olarak bir en iyi yolun bulunması gibi temel bir matematiksel özellik sağlar.

Büyük model

"Tek yol" tıkanıklığın kökünü doğrudan ortadan kaldırır. Geleneksel mimariler, çok sayıda yol mevcut olduğu için sıcak noktalar oluşturur; yük dengeleme algoritmaları yanlış seçim yaparsa trafiğin yoğunlaşmasına neden olur. ZCube, tasarımında "seçim" kavramını tamamen ortadan kaldırır: Çapraz yollar olmadığı için dengeleme gerekmez.

04 Aynı donanım koşullarında hesap nasıl yapılır?

ZhiPu, GLM-5.1 üretim kümesini geleneksel ROFT'ten ZCube'e yükselttikten sonra üç sayı elde etti:

Özetle, aynı GPU yatırımıyla kümeler daha fazla kullanıcıya hizmet verebilir; aynı kullanıcı deneyimi gereksinimleriyle kümeler ağ cihazlarının üçte birini satın almak zorunda kalabilir. Verimlilik ve maliyet aynı anda iyileşiyor.

Büyük model

Daha spesifik olarak, verimlilikteki %15 artış, ücretsiz olarak %15 daha fazla hesaplama gücü anlamına gelir. GPU sayısı sabit kalırken, verimlilikteki %15 artış, her token için ortalama donanım maliyetinin yaklaşık %13 azalması veya aynı maliyetle %15 daha fazla kullanıcıya hizmet verilmesi anlamına gelir.

1000 adet GPU'ya sahip bir kümede bu yükseltme, anında 150 adet kartlık kapasite eklemeye eşdeğerdir; mevcut yüksek performanslı çıkarım kartlarının piyasa fiyatı baz alınarak, bu milyarlarca yuan değerindeki hesaplama gücüdür.

Kuyruk gecikmesi %40,6 azaldı; bu, ortalama hız değil, kararlılık sorununu çözmektedir. 50 tur çağrı gerektiren bir Agent görevinde, kuyruk gecikmesi her seferinde 1 saniye azalırsa, görevin en kötü senaryodaki tamamlanma süresi yaklaşık 1 dakika kısalır.

Maliyet, inşaat düzeyinde doğrudan üçte bir azalıyor. ZCube, Spine katmanını kaldırdı ve aynı küme boyutunda gerekli anahtarlayıcı ve optik modül sayısı doğrudan üçte bir azaldı. ZhiPu'nun hesaplamalarına göre, on binlik küme ölçeğinde bu tek maddeyle yaklaşık 210 milyon ila 640 milyon yuan tasarruf sağlanabilir.

Uzun vadede, kümelerin ölçeği üssel olarak arttıkça, GPU'lar arası iletişim karmaşıklığı birkaç kat artar ve tıkanıklık olasılığı ve etkisi de aynı oranda büyür. Bu, ZCube gibi mimari düzeydeki yeniliklerin değerinin, çıkarım kümeleri genişlemeye devam ettikçe hızla ortaya çıkacağını anlamına gelir. Yarınki 10.000 GPU'luk kümelerin getirisi, bugünün %15'inden daha fazla olabilir.

05 Son olarak

ZhiPu'nun teknik raporunu okuduktan sonra, bu, DeepSeek'in ortaya çıkışı gibi sektörde bir fırtına mı yaratacak?

Düşünürseniz, ikisinin etkisi gibi farklı yönlerde görünüyor. DeepSeek çıktığında, aynı akıllılığın çok daha az hesaplama gücüyle sağlanabileceğini kanıtladı. Piyasa, "Gereken GPU sayısı azalacak" endişesiyle, Nvidia'nın değeri o gün yaklaşık 600 milyar dolar kaybetti.

Ancak bugün Zhipu'nun teknik kanıtı: Aynı hesaplama gücüyle daha fazla üretilebilir. Bu, "GPU dışında diğer altyapıların nasıl görünmesi gerektiği" konusunu yeniden yapılandırmaktadır.

Kısa vadeli olarak NVIDIA etkilenmeyecek, ancak uzun vadeli olarak GPU + NVLink bağlantısı + InfiniBand ağı + CUDA yazılım ekosistemi koruması “topraklanıyor”, özellikle NVIDIA’nın 2019 yılında 6,9 milyar dolarla Mellanox’u satın alarak elde ettiği InfiniBand ağı, NVIDIA’nın ağ tarafındaki ekstra değerini büyük ölçüde azaltacak.

Ayrıca, ZCube Spine katmanını iptal etti ancak Leaf anahtarları için port yoğunluğu gereksinimini artırdı. Yüksek yoğunluklu, büyük portlu Leaf anahtarları üretebilen üreticiler (Ruijie, Arista, Broadcom anahtar çipleri) fayda sağlarken, anahtarları Spine katmanında yüksek fiyatlı cihazlarla kazanç elde eden üreticiler zarar gördü.

2025 yılında Celestica ve NVIDIA, AI arka plan ağ anahtarlarının piyasa payının yaklaşık %50'sini paylaşacak; bu yapı, ZCube paradigmalarının yayılmasıyla yeniden şekillenecek.

Optik modüller, bu zincir değişimi içinde en doğrudan fayda gören alan olup, mantığı çok net. Yerli optik modül üreticileri (Zhongji Shuangchuang, Tianfu Communication vb.) için bu, yapısal bir iyilik fırsatıdır: hem toplam talep artmakta hem de ZCube modeli altında yüksek hızlı optik modüller (800G, 1.6T) talebi geleneksel mimariye göre daha yoğun ve aciliyet taşımaktadır.

TileRT veya ZCube mimarisi ne olursa olsun, bu, standart GPU üzerinde çalışan, NVIDIA'nın özel donanım özelliklerine bağımlı olmayan tamamen yazılım tabanlı bir çıkarım motorudur ve teorik olarak Huawei Ascend gibi yerel çiplere taşınabilir. Bu yön başarıyla izlense, yerel AI çiplerinin çıkarım senaryolarındaki yazılım yığınına olan engeli büyük ölçüde düşürecektir.

Belki de bu teknoloji yeniliğinin arkasındaki daha büyük anlam budur.