Zhipu AI'nin Mühendislik İyileştirmeleri, Maliyet Verimliliğini ve Piyasa Güvenini Artırıyor

Mayıs Tatili sonrası ilk işlem günü, Zhipu ve MiniMax aşırı şekilde yükseldi.

4 Mayıs'ta, ZhiPu %10'un üzerinde yükseldi ve hisse fiyatı tekrar bin yuan sınırına yaklaştı; MiniMax %12,62 yükseldi ve 803 Hong Kong dolarında kapanış yaptı.

Morgan Stanley raporuna göre, hisse senedi fiyatlarındaki sıçrama, Çin'in AI alanında benzersiz "maliyet-verimlilik hikayesinden" kaynaklanmaktadır.

Morgan Stanley, Çin'in AI Yolu: Daha Fazla Değer İçin Daha Az Harcama adlı raporunda, hesaplama gücü kısıtlı olduğunda, ABD ve Çin'in öncü modellerinin zekâ düzeyinin hızla yaklaşmakta olduğunu ve farkın 3 ila 6 aya daraldığını belirtti.

Aynı zamanda rapor, Çin modellerinin, ABD rakiplerinin %15 ila %20'si kadar bir çıkarım maliyetiyle neredeyse eşdeğer düzeyde akıllılık sağlayabileceğini vurgulamaktadır.

Bu aslında çok anlaşılır. Herkes en güçlü modeli kullanmak zorunda değil, ancak çoğu kişi ucuz bir model kullanmak istiyor.

Pazar, basit bir "yerel alternatif" hikayesi değil, Çin'in AI teknolojisinin maliyet-verimliliğini gerçek kullanım miktarlarına, gerçek gelirlere ve gerçek değerlemeye dönüştürdüğü bir hikayedir.

Ancak soru şu: Bu maliyet-verimlilik nereden geliyor?

Sadece düşük fiyatla müşteri çekmek, çok kısa sürede bir fiyat savaşı haline gelir.

Sadece model özümlemesi yapıyorsanız, ancak Anthropic, OpenAI ve diğer şirketler zaten özümlemeye kapalıysa, derecelendirme düşürülmeli değil mi, neden artırıldı?

Aslında, bu hikayeyi daha ikna edici hale getiren, Zhipu'nun Mayıs Öncesi yayımladığı teknik blog yazısı "Scaling Pain: Çok Büyük Coding Agent Çıkarım Uygulamaları"dır.

Bu blog post, büyük AGI vizyonlarını değil, KV Cache, veri throughput, zamanlama ve hatalı çıktı gibi alt düzey mühendislik detaylarını piyasaya açıyor.

En önemlisi, Çin AI fiyat performansının ardındaki sırrı “ortaya çıkardı”.

01

Bu blog yazısında, ZhiPu, aynı GPU'nun daha fazla iş yapmasını ve daha az hata yapmasını sağlamak için önbellek, zamanlama ve hata izleme optimizasyonlarını nasıl uyguladığını anlatıyor.

ZhiPu, AI'nin kullanışsız olmasının yalnızca modelin akıllı olmamasından kaynaklanmadığını, arka plandaki çalışma sisteminin çok karışık olmasından da kaynaklanabileceğini fark etti. Önbellekteki veri karışıklığını giderdi, GPU zamanlamasını ve önbellek yeniden kullanımını optimize etti ve anormal çıktıları önceden tespit eden bir uyarı sistemi ekledi.

Sonuç olarak, aynı model ve aynı GPU ile daha fazla kullanıcı hizmet verilebilir ve hata olasılığı da daha düşüktür. Bu nedenle “maliyet-verimlilik hikayesi” yalnızca fiyat indirimi değil, her bir GPU’dan daha fazla kararlı ve kullanılabilir hesaplama gücü çıkarılmasıyla sağlanır.

Alt yapı mühendisliği iyileştirmeleriyle GLM-5 serisi, Coding Agent senaryolarında sistem iş yükü kapasitesini en fazla %132 artırarak, sistem hatalı çıktı oranını yaklaşık on binde 10'dan on binde 3'e düşürdü.

Örneğin, önce bir GPU saatte 100 görev hizmet ediyordu, şimdi optimizasyon sonrası en fazla 232 görev hizmet edebiliyor.

Her biri tek başına zaferi belirleyecek kadar yeterli değildir. Ancak bir araya geldiklerinde, eşit hesaplama gücüne sahipken iki kat daha fazla veri işlem kapasitesi ve bir derece üstü stabilite artışı sağlar.

Model değişmedi. Değişen, modelin nasıl kullanıldığı.

Özellikle Mart'tan itibaren, Zhipu, GLM-5'in çevrimiçi izleme ve kullanıcı geri bildirimlerinde üç tür anormallik tespit etti: kararsız karakterler, tekrarlamalar ve nadir karakterler. Bu fenomenler, uzun bağlam senaryolarında yaygın olan "zeka düşüşü"ne yüz yüze benzer görünmektedir.

Ancak ZhiPu ekibi, modelin doğruluğunu azaltan herhangi bir optimizasyonu başlatmadı. Peki bu anormallik, modelin kendisinden mi, yoksa çıkarım zincirinden mi kaynaklanıyor?

Tekrarlı analiz ve mantık yürütme günlüklerinden sonra, beklenmedik bir giriş noktası buldular: spekülatif örnekleme endeksi, anormallik tespiti için bir referans sinyali olarak kullanılabilir.

Öngörü örnekleme, başlangıçta bir performans optimizasyon tekniğiydi. Öncelikle taslak modeli tarafından aday token'lar oluşturulur, ardından hedef model tarafından doğrulanır ve kabul edilip edilmeyeceği kararlaştırılır; bu sayede nihai çıktı dağılımı değiştirilmeden dekodlama verimliliği artırılır.

Küçük modelin önce hızlıca bir dizi cevap üretmesini ve ardından büyük modelin doğru olanları seçmesini sağlayın; bu hem hızlı hem de doğru olur.

ZhiPu ekibi, anomali oluştuğunda rastgele örnekleme için iki göstergenin kararlı bir desen sergilediğini fark etti ve rastgele örneklemeyi sadece bir performans iyileştirmesi olarak değil, çıktı kalitesinin gerçek zamanlı izleme sinyali olarak da genişletti.

spec_accept_length 1,4'in altında kalır ve oluşturulan uzunluk 128 token'ı aşarsa veya spec_accept_rate 0,96'nın üzerindeyse, sistem mevcut oluşturmayı etkin olarak durdurur ve isteği yük dengeleyiciye yeniden gönderir.

Bu iki sayı, fiziksel muayene göstergeleri gibi, biri anormal olduğunda modelin "hastalandığını" ve tedavi için yeniden başlatılması gerektiğini gösterir.

Kullanıcı bu süreci hissetmese de, arka planda bu tür bir yeniden başlatma tamamlandı.

Ana neden, KV Cache yeniden kullanım çakışmasıdır.

Bu, mutfak gibi, yemek saatlerinde birçok kişi aynı anda sipariş veriyor.

Sistem, her kullanıcının bağlamını geçici olarak kaydetmelidir, yani KV Cache. Bu masa müşterileri daha önce ne sipariş etti, acı biberi az mı koysun, yoksa maydanozu hiç koymasın mı? Bir ya da iki müşteri iyi, ama müşteri sayısı arttıkça, garson hatalar yapmaya başlar.

MiniMax

Yüksek eşzamanlılık durumunda bazı önbelleklerin geri kazanılması, yeniden kullanımı ve okunması sırası karıştı. Bu da modelin yanlış bağlamı almasına neden olabilir ve bunun sonucunda kaos metin, tekrar veya nadir karakterler üretilebilir.

Tahmin motorunda, PD ayrıştırma mimarisinde, istek yaşam döngüsü ile KV Önbelleği geri kazanımı ve yeniden kullanımı arasındaki zamanlama uyumsuzluğudur. Yüksek eşzamanlı yük altında çatışmalar büyür ve kullanıcı tarafında kararsız metin ve tekrarlanan içerikler olarak ortaya çıkar.

Birden fazla istek aynı anda bir bellek bloğuna sıçradı ve veriler karıştı, kullanıcı bunu karışıksız metin olarak gördü.

ZhiPu ekibi bu hatayı tespit etti ve düzeltti.

Ayrıca, SGLang ana kaynak açık çıkarım çerçevesinde, HiCache modülünün yüklenme sırasındaki eksikliği, yani read-before-ready sorununu tespit edip düzelttiler.

Düzeltme önerisi, SGLang topluluğuna Pull Request #22811 aracılığıyla sunuldu ve kabul edildi.

SGLang, büyük dil modelleri için bir çıkarım/hizmet çerçevesi anlamına gelen bir açık kaynak projesidir. Bu bir büyük model değildir, bir AI şirketi değildir; büyük modellerin verimli bir şekilde çalışmasını sağlayan temel bir yazılım setidir.

SGLang açık kaynak çıkarım çerçevesini kullanırken智谱, yüksek eşzamanlılık önbellek hatası tespit etti.

Sadece kendi içinden düzeltme yapmadı, Zhipu ayrıca düzeltme kodunu SGLang adlı açık kaynak projesine gönderdi.

Proje sahibi incelemesinden sonra kabul edilip birleştirildi. Böylece bu düzeltme genel sürüme dahil edildi ve bundan sonra SGLang kullanan diğer geliştiriciler ve şirketler de bunu kullanabilecek.

Bu ne anlama geliyor?

Qwen'in bir dağıtım hattı SGLang+HiCache kullanıyorsa, Alibaba da ZhiPu'nun bu sorunu keşfetmesi ve çözmeleri nedeniyle fayda sağlayacaktır.

Daha önce de söylediğim gibi, model değişmedi, ancak mühendislik optimizasyonları sayesinde kullanım sırasında daha akıllı hale getirildi.

02

ZhiPu'nun bu blog yazısı, daha derin bir seviyeyi gerçekten ortaya koyuyor.

Çatbot时代的低价格很大程度上源于训练成本低，一部分训练集来自对头部模型的蒸馏。

Agent时代, bu yöntem artık işe yaramıyor.

Bu yıl içinde Anthropic ve OpenAI, eğitim verisi olarak kendi modellerinin çıktılarını kullanarak rekabetçi modeller geliştirmeyi açıkça yasakladı. Bu tür bir "öğrenme" yöntemi artık giderek daralıyor.

Ancak Çinli AI şirketlerinin maliyet-verimlilik hikayesi zayıflamadı, pazar tam tersine bu hikayeye ekstra ağırlık veriyor.

Nedeni, maliyet-performans oranının tanımının değişmesidir.

Chatbot dönemi, ortalama bağlam 55K token, tek seferlik diyalog, düşük eşzamanlılık.

Agent dönemi, ortalama 70K+ token bağlam, uzun süreli görevler (8 saat seviyesinde), yüksek eşzamanlılık ve yüksek önek yeniden kullanım.

Chatbot çağında, AI'nın fiyat/performans ölçüsü basittir. Aynı soruyu sorduğunuzda, modeli daha ucuz olan ve cevabı birinci sınıf seviyeye daha yakın olan kazanır.

Sektör, milyon token başına ne kadar, model parametrelerinin ne kadar büyük ve liste performansının ne kadar yüksek olduğu hakkında konuşuyor.

Agent时代, bunu kimse sormuyor, bu algoritma geçersiz hale geldi.

Kullanıcı bir cevap değil, tam bir görevin tamamlanmış sonucunu satın alıyor.

Bir Coding Agent, kodu okumalı, bağlamı anlamalı, adımları planlamalı, araçları çağırmalı, dosyaları değiştirmeli, testleri çalıştırmalı ve başarısız olduğunda tekrar denemelidir. Tüketilen token sayısı, tek bir soru-cevap artışı değil, bir iş akışının toplam maliyetidir.

OpenRouter, dünyanın en büyük çağrım platformu olarak, 2026 yılının Ocak ayının ilk haftasında 6,4 trilyon olan haftalık işlem edilen token miktarını, 9 Şubat'taki haftada 13 trilyona çıkardı ve bir ay içinde iki katına çıktı.

OpenRouter'un resmi açıklamasına göre, 100K ile 1M arasındaki uzun metin aralığındaki artışlı çağrı talepleri, agent iş akışlarının tipik tüketim senaryolarıdır.

Kullanıcıların AI kullanım modeli, "diyalog tabanlı"dan "işlem akışı tabanlı"ya geçti. Bu nedenle AI'nın maliyet-verim oranı birimi, "token birim fiyatı"dan "görev birim fiyatı"ya dönüştü.

Bu da bazı modellerin token'ları ucuz olsa da, model performansının yetersiz olması nedeniyle görevler sırasında sürekli başarısız olmasına veya görev sonuçlarının beklentileri karşılamamasına neden olur ve bu da agent fiyatlarının aslında ucuz olmadığını gösterir.

Örneğin, 8 saatlik bir Coding görevinde bir kez bile kodlama hatası yaparsanız, tüm iş akışı yeniden başlatılabilir. Tasarruf edilen token birim fiyatı, harcanan zamanı telafi edemez.

Çin'in AI'sı için maliyet-verim oranı hikayesi yükseliyor.

Daha önce “aynı düzeyde cevaplar veriyorum, ben daha ucuzum” diyordu. Şimdi “aynı karmaşıklıktaki görevleri, daha düşük maliyetle tamamlayabiliyorum” diyor.

Açık kaynak altyapı, Çin'in AI için yeni koruma duvarı haline gelmektedir.

Önceden bahsedilen SGLang tam olarak böyle. Çinli AI'nın mühendislik kapasitesi, yukarı akış topluluklarına doğru yayılmaya başlıyor.

Bu olayın değeri, Zhipu'nun bir hata düzeltmesinde değil, Çinli AI şirketlerinin gerçek işlerdeki yüksek eşzamanlılık, uzun bağlam ve agent çağrısı sorunlarını tersine dönüştürerek ortak altyapı yeteneklerine dönüştürmesinde yatıyor.

Daha önce de belirtildiği gibi, bir onarım SGLang gibi bir açık kaynak çerçevesine dahil edildiğinde, yalnızca Zhipu'nun kendi modellerini değil, bu çerçeveyi kullanarak büyük modelleri dağıtan tüm takımlar daha istikrarlı bir önbellek, daha düşük çıkarım maliyeti ve daha iyi bir agent deneyimi kazanma fırsatı elde eder.

Modellerin yetenekleri yakalanabilir, fiyatlar düşürülebilir, ancak altyapı bir kez açık kaynak ekosistemine girdiğinde standart, arayüz ve geliştirme alışkanlıkları haline gelir.

Daha erken kendi mühendislik deneyimlerini bu temel sistemlere dahil eden, bir sonraki AI uygulama patlamasında daha kolay bir konum kazanır.

03

Kapital piyasasına geri dönün.

Yapay zeka büyük modelleriyle ilgili hisseler tümüyle yükselişte, sermaye yapay zeka şirketlerine yeniden değer mi veriyor? Piyasa tam olarak neyi satın alıyor?

Cevap, sermaye piyasalarının, "Çinli AI şirketlerinin daha düşük çıkarım maliyetleriyle birinci sınıf akıllılığa yakın sonuçlar üretebileceği" hikayesine ödeme yapması.

OpenRouter verilerine göre.

Çin'in önde gelen AI şirketlerinin token tüketim payı, Nisan 2025'te %5'ten Mart 2026'da %32'ye hızlı bir şekilde yükseldi. ABD'nin önde gelen modellerinin payı, %58'den %19'a büyük oranda düştü.

MiniMax, ZhiPu ve Alibaba'nın token kullanım miktarları, 2026 Şubat-Mart ayında geçen yıl Aralık'a göre 4-6 kat arttı.

Token çağrısı dışında, Çin AI'sı, yurt dışındaki büyük şirketlerden tamamen farklı bir büyüme mantığı geliştiriyor.

Yurtdışındaki önde gelen modeller, "beceri primi" satıyor.

Model kapasitesi ne kadar güçlüyse, her bir çağrısı o kadar pahalı olur; kullanıcılar en güçlü akıllı sisteme ödeme yapar. Claude, GPT-5 ve Gemini bu yönde ilerliyor.

Çinli AI, "mühendislik" satıyor.

Model yetenekleri birinci sınıf modellere yaklaşırken, fiyat, gecikme ve çağırma sınırı daha düşüktür ve çoğu yüksek frekanslı senaryonun ihtiyaçlarına daha uygundur.

Morgan Stanley raporuna göre, Çin modelinin girdi fiyatı yaklaşık 0,3 dolar/milyon token iken, bazı yurt dışı benzer ürünlerin fiyatı yaklaşık 5 dolar seviyesinde. Bu arasında onlarca katlık bir fark var.

Yapay zekâ, deneme aracıdan üretkenlik aracına dönüşünce, maliyet-verim oranı doğrudan çağrım sıklığını belirleyecektir.

Model daha ucuz olduğunda, şirketler daha fazla müşteri hizmeti, kodlama, pazarlama ve veri analizi görevini ona verir. Görevler ne kadar çok çalıştırılırsa, token tüketimi o kadar artar ve platform altyapı maliyetlerini daha iyi dağıtabilir.

MiniMax

Bu aşamada bir dönüşüm kazanç mekanizmasının oluşması mümkündür.

İlk tur, daha düşük API fiyatları ve birinci sınıf yeteneklerle geliştiricileri ve işletmeleri çekmektedir.

İkinci tur, daha yüksek işlem hacmi, gerçek senaryoları artırarak modeli ve çıkarım sistemini sürekli iyileştirmeye zorlayacaktır.

Üçüncü döngü, yani ZhiPu'nun bu teknik blog yazısında anlattığı, maliyeti düşürmek için mühendislik optimizasyonu uygulayarak birim token ve birim görev maliyetini azaltmak, üreticilere fiyat indirimi yapma, hacmi artırma veya yüksek değerli senaryolarda fiyat artırma yeteneği kazandırmaktır.

Dördüncü turda, token tüketimi AI çağındaki yeni trafiğe dönüşürken, daha düşük maliyetle daha fazla token taşıyabilen, bir sonraki aşamadaki platform şirketine daha yakın olur.

Sadece modelin fiyatının düşmesi, pazarın bu durumun sübvansiyon ve fiyat savaşına işaret ettiğini düşündürür, bu da giderek daha fazla para harcamaya neden olur ve sonunda kimse cüzdanını kaldıramaz.

Ayrıca, fiyat savaşı yüksek değerlemeyi destekleyemez.

Ancak fiyat düşüşünün arkasında verimlilik artışı, önbellek yeniden kullanımı, hata oranı düşüşü ve zamanlama verimliliği artışı varsa, düşük fiyatlar kâr kaybıyla büyüme sağlamaktan ziyade mühendislik yetkinliğinden kaynaklanan maliyet boşluklarıdır.

Fiyat savaşının ve bu mühendislik optimizasyonunun sonucu, her ikisi de modeli daha ucuz hale getirir ve finansal raporlarda benzer görünür; ancak değerleme modellerinde çok farklıdır.

İlki sübvansiyondur, piyasa indirimli olacaktır. Diğeri mühendislik engelidir, piyasa primli olacaktır.

Sonunda bir yargıya varılabilir.

Geçmişte AI şirketlerinin değerlemesi, model kapasitesinin sınırına ve AGI'ye ne kadar yakın olduğuna bakılarak yapıldı. Piyasa o dönemde “en güçlü zekâ” için ödeme yapıyor, en güçlü zekânın tanımı giderek bulanıklaşıyor ve her bir çağrı maliyeti artıyordu.

Şu anda agent çağında, değerleme hala maliyet alt sınırına bakar. Kim akıllı, kararlı, ucuz ve büyük ölçekli bir şekilde teslim edebiliyor?

En gelişmiş "akıllılığı" arayanlar için, bu belki Çin AI'nın güçlü olduğu bir şey değildir.

Ancak Çin AI, "akıllı" iki kelimesini, herkesin ve her şirketin kullanabileceği bir altyapı haline getirmenin en olası adayıdır.

Piyasa ise kendi mantığını açıkça açıklayabilen şirketlere yalnızca ödeme yapmak istiyor.

Bu yazı WeChat hesabından alınmıştır: "Harfler Listesi" (ID: wujicaijing), yazar: Miao Zheng