Bumagsak ng 26% ang mga stocks ng Zhipu AI pagkatapos ipaglaban ang API na 400 tokens/s

Teksto | AIDeepDive

Ngayon, bumagsak muli ang "Unang Company sa Global na Large Model," Zhipu (02513.HK).

Ang pagtaas sa loob ng araw ay umabot sa higit sa 30%. Nakatapos sa 1,282 Hong Kong dolyar, na may pagtaas sa buong araw na higit sa 26%, at ang halaga ng merkado ay umabot sa 571.57 bilyong Hong Kong dolyar, na muli naming itinataguyod ang bagong tala.

Malaking modelo

Ang nag-trigger sa pagtaas na ito ay isang tiyak na teknikal na indikador: 400 tokens/s.

Mayo 22, inilunsad ng Zhipu ang GLM-5.1-highspeed API para sa mga corporate client, at ang pinakamahalagang pangunahing parameter ay isa lamang: ang bilis ng output ng modelo ay umabot sa 400 token bawat segundo, na nagpapalit sa pinakamataas na bilis na limitasyon ng API ng mga tagapagbigay ng malalaking modelo sa buong mundo.

Nanaisip kong ito ay isa pang PR campaign para sa isang lokal na malaking modelo, ngunit pagkatapos mong tingnan ang mga teknikal na detalye, naintindihan ko na ang lohika sa likod ng mga kapital na merkado.

Ano ang kahulugan ng 400 tokens/s?

Ang modelo ay nakakagawa ng halos 200 na Chinese character bawat segundo, katumbas ng isang propesyonal na manunulat na naglalabas ng isang minuto ng malakas na produksyon, na nai-press sa loob ng isang segundo.

Ang dami ng teksto na kailangang isulat ng isang tagagawa sa loob ng ilang araw na nakaupo sa pahinga, maaaring ibigay ng GLM-5.1 High-Speed sa loob ng 1 minuto; ang isang inhinyero na nagtrabaho nang matagal sa loob ng 3 araw para sa isang system restructure, maaari itong tapusin habang iniiinom ng kape.

01 Ang bilis, mas mahalaga kaysa sa iyong isipin

Ang bilis ay palaging ang pinakamadaling makalimutan na dimensyon sa kompetisyon ng mga AI model.

Sa nakaraang tatlong taon, ang kompetisyon sa mga malalaking modelo ay nakatuon sa dalawang track: laki ng mga parameter (mas malaki at mas matalino ang mga modelo) at pakikidigma sa presyo (mas mura at mas accessible ang mga Token). Ang "bilis", hindi laging pangunahin.

Dahil sa nakaraan, ang “mabilis” ay karaniwang natutupad sa pamamagitan ng pagpapaliit ng mga parameter ng modelo. Upang mapabilis, kailangan gamitin ang mas maliit at mas maikling modelo, ngunit sa halaga ng pagbaba ng kakayahan.

Ang kahalagahan ng high-speed na bersyon ng GLM-5.1 ay nasa pagpapanatili ng kakayahan ng flagship na buong sukat habang pinapabilis ang bilis hanggang 400 tokens/s.

Para sa mga lokal na modelo at sa global na saklaw, ang "flagship capability" at "extreme low latency" ay unang nagawa nang walang kompromiso.

Malaking modelo

Bakit mahalaga ang bilis? Dahil sa pangunahing larangan ng AI ay nangyayari ang malalim na paglipat.

Kapag ang AI ay pumapasok sa panahon ng Agent mula sa ChatBot, ang pagtatanong at sagot ay hindi na pangunahing escena ng AI, at upang matapos ng isang Agent ang isang gawain, kadalasan kailangan ng modelo ng sampu-sampu o higit pa sa mga sariling pagtawag: pagsulat ng code, pagtawag sa API, paghahanap ng impormasyon, paggamit ng mga kasangkapan...

Sa ganitong mode ng paggawa, ang bawat pagkakalantad sa pagitan ng bawat round ng pagtawag ay mapapalaki nang walang awa. Isang gawain na nangangailangan ng 50 round ng pagtawag, kung ang bawat pagtawag ay nagtatipid ng 1 segundo, ang buong gawain ay mabilis ng halos 1 minuto. Para sa AI programming assistant, voice interaction, at business decision systems, ang pagkakaiba na ito ay maaaring magdesisyon kung buhay o patay.

Sa mas malalim na antas, ang mas mabilis na pag-iisip sa loob ng fixed time budget ay nangangahulugan na ang modelo ay makakapagtapos ng mas malalim na mga path ng pag-iisip at higit pang bilang ng sariling pag-verify. Ang bilis, ay nagsisilbing hindi lamang isang sistemang indikador kundi ang sariling hangganan ng inteligensya.

02 Gaano kahirap ang speed na ito?

Ano ang kasalukuyang antas ng bilis sa industriya?

Sa mga pangunang vendor, ang OpenAI's GPT-4o ay nasa paligid ng 100–150 tokens/s, ang Anthropic's Claude Sonnet series ay nasa paligid ng 80–120 tokens/s, habang ang mga pangunahing flagship model API sa bansa ay karaniwang nasa antas ng 50–100 tokens/s. Ang 400 tokens/s ay halos 3 hanggang 5 beses ang antas ng industriya.

Mas mahalaga pa, ang pagkakaiba na ito ay hindi matutugunan sa pamamagitan ng pagpapalaki ng computing power.

Isang server na may 8 na H200 GPU, teoretikal na kayang ilipat hanggang 38 TB ng data bawat segundo. Para sa GLM-5.1, ang isang pagbuo ng token ay nangangailangan lamang ng pagbabasa ng humigit-kumulang 42 GB ng activation parameters; batay sa teoretikal na pagkalkula, dapat ito ay makakamit ang halos 1000 tokens/s.

Ngunit ang mga real-world system ay karaniwang nakakapagpapatakbo lamang ng ilang dosenang tokens/s.

Malaking modelo

Ito ay isang pagkakaiba sa antas. Ang GPU ay hindi sapat na mabilis, kundi maraming oras ay nawawala sa paghihintay, pagiging walang gawain, at hindi epektibong pagkakataon.

Sa pagkakataong ito, ang ZhiPu ay nagawa ang pagbabago nang sabay-sabay sa mga aspeto ng inference engine, parallel strategy, at network architecture, na nagresulta sa pagbuo ng pagpapabilis.

Malaking modelo

03 Tatlong antas ng teknolohiya na pinagsama, malapit na sa pisikal na limitasyon ng hardware

Ganito ang paggana ng malalaking modelo: hinahati ang malalaking modelo sa mga hiwalay na operator, at bawat operator ay nagpapatakbo ng isang compute kernel nang magkahihiwalay, tumitigil pagkatapos mag-compute, nag-synchronize at naghihintay, tapos ipinapatakbo ang susunod.

Sa panahon ng pag-train, bawat kalkulasyon ay maaaring mag-trabaho ng ilang segundo hanggang minuto, kaya ang overhead ng pag-start at pag-hintay ay maaaring malampasan. Ngunit sa pag-reason, ang bawat pag-generate ng isang token ay maaaring mag-tagal ng ilang dekayong microsecond lamang, kaya ang overhead ng pag-start at pag-hintay ay naging relatif na mahalaga.

Ang pangunahing ideya ng TileRT: i-compile ang buong modelo bilang isang patuloy na nagpapatakbo na engine, isang pag-start lamang, walang paghinto.

Pinagsama ni TileRT ang lahat ng logika ng computation ng model sa isang tuloy-tuloy na pipeline sa panahon ng compilation, kaya patuloy na nasa mataas na bilis ang GPU habang nagpapatakbo—nagpapalipat, nagpapadala, at nagpapalabas ng computation nang sabay-sabay, at iniiwasan ang pagbabalik ng intermediate results sa mabagal na video memory; nananatili ito sa loob ng mabilis na cache ng GPU.

Malaking modelo

May isang mahalagang detalye sa disenyo: ang Warp specialization.

Upang maunawaan ang Warp, kailangan mong maunawaan ang paraan ng paggana ng GPU. Ang pinakamalaking pagkakaiba ng GPU sa CPU ay ang pagkakaroon nito ng libu-libong simpleng computing unit sa loob, na nakabukod sa mga grupo ng 32, at ang bawat grupo ay tinatawag na Warp.

Ang 32 na unit sa parehong Warp ay dapat laging magkakasundo at magpapatupad ng iisang utos, tulad ng isang klase ng sundalo kung saan ang puno ay nag-uutos na lahat ay gawin ang iisang galaw.

Sa tradisyonal na framework, lahat ng Warp ay nagpapatupad ng parehong hanay ng mga utos; ang TileRT ay nagbibigay ng iba’t ibang tungkulin sa iba’t ibang grupo ng Warp: ang ilan ay espesyalisado sa paghahatid ng susunod na set ng data, ang ilan ay espesyalisado sa matematikang pagkalkula, at ang ilan ay espesyalisado sa komunikasyon sa iba pang GPU. Tatlong grupo ang nagtatrabaho nang sabay-sabay, nagkakasunod-sunod na pagtutulungan, at hindi naghihintay sa isa’t isa.

Kagaya ng pagbabago mula sa "isang manggagawa na umiikot, nagtatayo ng pader, at nagpapatibay nang sunod-sunod" patungo sa "mga grupo na nagtatrabaho nang sabay-sabay: grupo sa pag-iikot, grupo sa pagtatayo ng pader, at grupo sa pagpapatibay."

Naresolba na ang efficiency sa loob ng isang card, ngunit may bagong hamon sa pagpaparallel ng maraming card.

Ang karaniwang praktika sa industriya ay ang tensor parallelism: hinahati ang mga weight matrix ng model sa ilang bahagi, at bawat GPU ay nagtatrabaho sa isang bahagi, at pagkatapos ay pinagsasama ang mga resulta sa pamamagitan ng high-speed interconnect (NVLink).

Ang scheme na ito ay epektibo sa mga regular na malalim na kalkulasyon tulad ng matrix multiplication at ang istandard na multi-GPU scheme sa kasalukuyang lahat ng mga framework ng inference ng malalaking modelo.

Ang GLM-5.1 ay gumagamit ng **MLA (Multi-head Latent Attention)**, isang mekanismo ng atensyon na ipinakilala ng DeepSeek.

Ang tradisyonal na mekanismo ng atensyon ay nangangailangan ng pag-save ng buong malaking mga intermediate data (KV Cache) mula sa bawat hakbang para sa paggamit sa hinaharap, na sobrang nagkakahalaga ng GPU memory; ang paraan ng MLA ay nag-compress muna ng mga intermediate data na ito sa isang kompakto na "latent vector" at nag-iimbak nito, at i-rerestore ito kapag kailangan, na nagdudulot ng malaking pagbaba sa pangangailangan ng memory at mas mataas na efficiency sa inference.

Ngunit may isang espesyal na hakbang sa proseso ng pagkalkula ng MLA: kailangan gumawa ng sparse index mula sa malaking dami ng kasaysayang impormasyon: tulad ng paghahanap nang mabilis ng ilang pinakamakabuluang aklat sa isang napakalaking librerian, bago basahin nang detalyado ang mga aklat na iyon.

Ang hakbang na "Maghanap ng Aklat" ay nakasalalay sa pangkalahatang impormasyon at hindi angkop para sa paghahati sa maraming GPU; ang "Maliwanag na Pagbasa" ang angkop para sa paralel na kompyutasyon sa maraming GPU. Kung pilit mong isasama ang lahat ng 8 na GPU sa "Paghahanap ng Aklat," maraming oras ay masasayang sa pag-sync at komunikasyon sa pagitan ng mga GPU.

Ang solusyon ni TileRT ay ang pagpapatakbo ng GPU nang hindi magkakatulad: ang GPU 0 ay nakatuon sa pagiging "tagapag-ayos ng aklatan", na responsable sa mga makitid na index at desisyon sa pagrute; ang GPU 1–7 ay nagsisilbing "mga tagapag-analisa ng detalyado", na responsable sa mga malalim na pagkalkula ng atensyon at mga operasyon sa matrix. Ang dalawang uri ng manggagawa ay gumagamit ng kanilang sariling pinakamainam na estratehiya sa paralelismo upang magtrabaho nang koordinado upang matapos ang buong computation layer.

Malaking modelo

Sa susunod, pinagsama na ng TileRT ang mga operasyon ng komunikasyon sa pagitan ng mga GPU sa direkta sa pipeline ng pagpapatupad, hindi na bilang hiwalay na hakbang. Para sa panlabas, ang buong 8-GPU system ay nagkakaroon ng isang pagpapalawak ng kernel lamang upang matapos ang isang layer ng atensyon, at ang lahat ng komunikasyon at kalkulasyon ay natatapos nang walang pagkakainterrupt sa loob ng patuloy na pipeline.

Lumalutas ang dalawang antas na ito sa mga problema sa loob ng isang makina. Kapag inexpand ang cluster hanggang sa mga sandaanan o libo-libong GPU, ang pagpapadala ng data sa pagitan ng mga GPU mismo ang naging bagong hangganan.

Ang industry standard ay ang ROFT (Rail-Optimized Fat-Tree), na ang opisyal na inirerekomenda ng NVIDIA at ang absolute standard sa industriya.

Ang itsura nito ay isang puno: ang server ay kumonekta muna sa ilalim na Leaf switch (access layer, direkta na nakadirekta sa server), at ang Leaf ay kumonekta pataas sa Spine switch (backbone layer, responsable sa pag-uugnay sa iba’t ibang Leaf, tulad ng isang枢纽 sa highway). Ang data ay dapat mag-travel sa pagitan ng dalawang GPU sa pamamagitan ng "pataas muna sa Spine, bago pababa sa target Leaf", na kailangang dumadaan sa hindi bababa sa 3 hops.

Upang maiwasan ang pagkonsentrasyon ng trapiko sa ilang mga link lamang, ang arkitekturang ito ay nagtataguyod ng ECMP algorithm upang magbahagi ng data sa maraming daanan, at gumagana nang maayos sa ilalim ng suposisyong "statistically uniform" ng internet traffic.

Ngunit ang trapiko sa mga senaryo ng pag-iisip ay lubos na hindi pantay. Ang pagkakaiba sa haba ng konteksto sa iba’t ibang hiling ay maaaring magkaiba ng maraming beses, ang direksyon ng pagpapadala ng KV Cache sa pagitan ng mga GPU ay halos random, at ang ilang mga Leaf switch ay periodic na naging hotspot, na nagpapalabas ng backpressure na nagdadala ng pagkakabigat mula sa lokal patungo sa buong chain. Ang pagkakabigat na ito ay hindi malulutas sa pamamagitan ng pagtutuwid ng protocol—ito ay produkto ng sariling topolohiya.

Malaking modelo

Ang pangunahing pagbubukas ng ZCube: nagpapagawa nito sa ganitong pagkakabigat na imposible na mangyari sa antas ng arkitektura.

Ang pangunahang disenyo ay may dalawang hakbang:

Unang hakbang, tanggalin ang Spine backbone layer at gawing flat ang buong network. Ihihiwalay ang lahat ng Leaf switches ayon sa odd at even numbering sa dalawang grupo, at i-connect ang dalawang grupo nang buo: ang bawat odd-numbered switch ay konektado sa lahat ng even-numbered switch, at vice versa. Ang anumang dalawang GPU ay maaaring makapag-communicate sa pamamagitan ng pinakamaraming dalawang switches lamang, na bumababa ang hop count mula sa 3 hop papunta sa 2 hop.

Malaking modelo

Pangalawang hakbang, at ang pinakamalikhaing bahagi: ang bawat GPU network card ay konektado sa dalawang magkakaibang grupo ng switch gamit ang dalawang magkakaibang paraan. Ang espesyal na topolohiyang ito ay nagdudulot ng isang mahalagang matematikal na katangian: sa buong network, mayroong isang tanging pinakamahusay na daan kahit saan sa pagitan ng dalawang GPU.

Malaking modelo

Ang "tanging daan" ay agad na tinanggal ang pinagmulan ng pagkakabagabag. Madaling magkaroon ng hotspot ang tradisyonal na arkitektura dahil sa maraming pagpipilian sa daan; kung mali ang algorithm ng load balancing, maaaring magresulta ito sa pagkonsentrasyon ng trapiko. Tinanggal ng ZCube sa disenyo ang pagpipili mismo: walang kailangang balansehin dahil wala talagang mga krusada.

Sa parehong mga kondisyon ng hardware, paano kalkulahin ang account?

Pagkatapos ng pag-upgrade ng production cluster ng GLM-5.1 ng Zhipu mula sa tradisyonal na ROFT patungo sa ZCube, natanggap nila ang tatlong numero:

Sa kabuuan, sa parehong pag-input ng GPU, ang cluster ay maaaring maglingkod sa mas maraming gumagamit; sa parehong pamantayan sa karanasan ng gumagamit, ang cluster ay maaaring bumili ng isang-katlo na mas kaunting network equipment. Mas mainam ang efficiency at cost.

Malaking modelo

Sa partikular, ang pagtaas ng throughput ng 15% ay katumbas ng libreng karagdagang 15% na computing power. Sa pagpapanatili ng bilang ng GPU, ang pagtaas ng throughput ng 15% ay katumbas ng pagbaba ng halos 13% sa average hardware cost bawat token, o sa ibang salita, maaaring servisyan ng 15% higit pang mga user sa parehong gastos.

Kung mayroong 1,000 na GPU sa isang cluster, ang pagpapabuti na ito ay katumbas ng pagkakaroon ng karagdagang 150 na kartang kapasidad nang walang anumang dagdag na gastos, at batay sa kasalukuyang presyo ng mga mataas na antas na kartang pag-iisip, ito ay may halagang milyon-milyon na yuans sa computing power.

Bumaba ang tail latency ng 40.6%, na naglutas ng stability, hindi ng average speed. Sa isang Agent task na nangangailangan ng 50 rounds ng pagtawag, kung bawasan ng 1 segundo ang tail latency bawat beses, ang pinakamasamang oras ng pagkumpleto ng buong task ay nabawasan ng halos 1 minuto.

Nabawasan ng isang kahon ang gastos, isang direkta na pagbawas sa pagbuo. Tinanggal ng ZCube ang Spine layer, kaya bumaba nang isang kahon ang bilang ng switches at optical modules na kailangan sa parehong laki ng cluster. Ayon sa Zhipu, sa isang cluster na may libo-libo ng GPU, maaaring i-save lamang sa pagsisigla na ito ang halagang 210 milyon hanggang 640 milyon yuan.

Sa matagalang panahon, habang tumataas nang eksponensyal ang laki ng cluster, tumataas nang maraming beses ang kumplikadong kalikasan ng komunikasyon sa pagitan ng GPU, at parehong tumataas ang posibilidad at epekto ng congestion. Ibig sabihin nito, ang halaga ng mga inobasyon sa antas ng arkitektura tulad ng ZCube ay lalalo pang magiging makabuluhan habang lumalawak ang mga cluster para sa inference. Ang benepisyo ng cluster na may libo-libo ng GPU bukas ay maaaring higit pa sa 15% ngayon.

05 Isinulat sa huli

Pagkatapos basahin ang teknikal na ulat ng ZhiPu, isinip ko, babaguhin ba nito ang industriya tulad ng pagkakaroon ng DeepSeek?

Isipin mabuti, tila iba-iba ang epekto ng dalawa. Noong lumabas ang DeepSeek, ipinatunay nito na ang parehong pagkakaintindi ay maaaring maabot gamit ang mas kaunting computing power. Natakot ang merkado na "mas mababa ang pangangailangan sa GPU", kaya nawala ang halos $600 bilyon sa market value ng NVIDIA sa araw na iyon.

Ngunit sa araw na ito, ipinapatotohanan ng teknolohiya ng Zhipu: sa parehong computing power, mas marami ang maaaring i-produce. Ito ay nagrereconstruct ng "ano ang dapat maging anyo ng iba pang infrastruktura sa labas ng GPU".

Sa maikling panahon, hindi makakaranas ng epekto ang NVIDIA, ngunit sa matagalang panahon, ang mga palatandaan tulad ng GPU + NVLink interconnect + InfiniBand network + CUDA software ecosystem ay nagsisimulang mabawasan, lalo na ang InfiniBand na kinuha ng NVIDIA noong 2019 sa halagang $6.9 bilyon, kung saan ang premium sa network side ng NVIDIA ay maaaring malaki ang mabawasan.

Bukod dito, inalis ng ZCube ang Spine layer, ngunit mas mataas ang kailangang port density sa Leaf switches. Ang nakikinabang ay ang mga manufacturer na kayang gumawa ng high-density, high-port Leaf switches (Ruijie, Arista, Broadcom switch chips), habang ang nasasaktan ay ang mga manufacturer na nakabatay sa mga high-end Spine switches para sa premium.

Noong 2025, ang Celestica at NVIDIA ay nagtatampok ng halos 50% ng market share sa AI back-end network switches, at ang格局 na ito ay magiging muling i-reshape pagkatapos ng pagkalat ng ZCube paradigm.

Ang optical modules ang pinakadirektang benepisyado sa pagbabago ng supply chain, at ang lohika ay napakalinaw. Para sa mga lokal na manufacturer ng optical modules (tulad ng InnoLight at Fortune Optical), isang struktural na benepisyo ito: hindi lamang tumataas ang kabuuang demand, kundi mas nakatuon at mas urgente ang pangangailangan para sa high-speed optical modules (800G, 1.6T) sa ilalim ng ZCube paradigm kaysa sa tradisyonal na arkitektura.

Anuman ang TileRT o ZCube architecture, ito ay isang purong software inference engine na tumatakbo sa standard GPU, na hindi nakasalalay sa mga pribadong hardware feature ng NVIDIA, at teoretikal na maaaring ma-port sa mga lokal na chip tulad ng Huawei Ascend. Kapag natutupad ang direksyong ito, babawasan nito nang malaki ang mga hadlang sa software stack ng mga lokal na AI chip sa mga inference scenario.

Maaaring ito ang mas malaking kahulugan sa likod ng teknolohiyang ito.