Ang mga pagpapabuti ng teknikal ng Zhipu AI ay nagdudulot ng efficiency sa gastos at tiwala sa merkado

Ang unang trading day pagkatapos ng Labor Day holiday, tumalima nang malakas ang Qizhi at MiniMax.

Mayo 4, umabot sa higit sa 10% ang pagtaas ng ZhiPu, at muli itong malapit sa antas ng isang libong yuan; umabot sa 12.62% ang pagtaas ng MiniMax at nagsara sa 803 Hong Kong dolyar.

Ayon sa ulat ng Morgan Stanley, ang pagtaas ng presyo ng mga bahagi ay dulot ng natatanging “narrative ng value for money” ng China AI.

Sinabi ng Morgan Stanley sa ulat na “China’s AI Path: More Bang For The Buck” na sa ilalim ng pagkakabawas ng computing power, ang antas ng inteligensya ng mga pinakamataas na modelo sa China at Estados Unidos ay nagsisiglang magkakapareho, at ang pagkakaiba ay nabawasan na sa 3 hanggang 6 na buwan.

Habang ang ulat ay nagpapakita na ang tunay na pagkakatangi ng mga modelong Tsino ay ang kakayahang makamit ang parehong antas ng inteligensya sa 15% hanggang 20% ng gastos sa pag-iisip kumpara sa kanilang mga katumbas sa Estados Unidos.

Totoo naman na madaling maintindihan ang pangungusap na ito. Hindi kailangang gamitin ng lahat ang pinakamalakas na model, ngunit gustong-gusto ng karamihan ang paggamit ng mas mura na model.

Hindi ang pagbili sa merkado ay isang simpleng kuwento ng “pagsisikap na palitan ang lokal,” kundi ang Chinese AI ay nagpapalit ng value-for-money sa totoong paggamit, totoong kita, at totoong elasticity ng valuation.

Ngunit may dumating na tanong: kung saan galing ang value na ito?

Kung ang layunin ay lamang ang pagkuha ng mga customer sa mababang presyo, mabilis itong magiging digmaan ng presyo.

Kung tanging model distillation lang ang ginagawa, ngunit ang mga kumpanya tulad ng Anthropic at OpenAI ay nagsara na sa mga entry para sa distillation, hindi ba dapat bumaba ang rating? Bakit itinataas pa?

Sa totoo lang, ang nagpapatibay sa kuwentong ito ay ang teknikal na blog ng Zhipu na pinamagatang “Scaling Pain: Practical Reasoning for Ultra-Large-Scale Coding Agents” na inilabas bago ang Labor Day.

Hindi ito isang blog tungkol sa malalaking pangarap ng AGI, kundi isang pagpapakita sa merkado ng mga pangunahing inhinyeriya tulad ng KV Cache, throughput, scheduling, at anomalous outputs.

Ang pinakamahalaga ay itinampok nito ang lihim sa likod ng value-for-money ng Chinese AI.

01

Sa blog na ito, ang Zhipu ay nagpaliwanag kung paano mapapalaki ang dami ng mga gawain na kayang gawin ng parehong GPU at mapabawasan ang mga pagkakamali sa pamamagitan ng pag-optimize ng cache, scheduling, at monitoring ng mga exception.

Nakita ng ZhiPu na ang pagiging hindi gamit ng AI ay hindi lamang dahil sa hindi matalinong modelo, kundi maaari rin dahil sa sobrang kalat ng backend system. Nilutas nila ang problema ng pagkakasundo ng cache data, pinabuti ang GPU scheduling at cache reuse, at idinagdag nila ang isang alarm na makakatuklas ng anomalous output sa harap.

Ang resulta ay, sa parehong modelo at parehong GPU, mas maraming user ang maaaring sirvin at mas mababa ang posibilidad ng pagkakamali. Kaya ang kanilang “narrative ng value for money” ay hindi lamang pagbaba ng presyo, kundi pamamagitan ng engineering optimization, kung saan mas maraming stable at usable computing power ang nailabas sa bawat GPU.

Sa pamamagitan ng pag-optimize ng mga panao na inhinyeriya, ang sistemang throughput ng GLM-5 series sa mga skena ng Coding Agent ay tumataas ng hanggang 132%, at ang rate ng sistemang abnormal na output ay bumaba mula sa halos 10 sa 10,000 patungo sa 3 sa 10,000.

Halimbawa, noong isang GPU, kaya nito na serbisyan ang 100 na gawain bawat oras, ngayon, matapos ang pagpapabuti, maaari itong serbisyan ang hanggang 232 na gawain.

Bawat isa sa mga ito ay hindi sapat upang matukoy ang tagumpay. Ngunit kapag pinagsama, ito ay nagdadala ng isang katumbas na pagtaas ng throughput at isang pagpapabuti sa katatagan na higit sa isang orden ng magnitude sa parehong computing power.

Hindi nagbago ang modelo. Nagbago ang paraan kung paano ito “ginagamit”.

Sa partikular, mula sa Marso, obserbahan ng Zhipu ang tatlong uri ng anomaliya sa online na pagmamasid at feedback ng mga user sa GLM-5: mga kodong pambihira, pag-uulit, at mga kakaibang karakter. Ang mga pangyayaring ito ay tila magkakatulad sa karaniwang “pagbaba ng intelehensya” sa mga sitwasyon na may mahabang konteksto.

Ngunit hindi nila ipinakilala ang anumang optimisasyon na nagbabawas sa precision ng modelo. Kung gayon, saan nagmumula ang anomaliya—sa modelo mismo o sa inference pipeline?

Pagkatapos ng maraming pag-aaral at pagsusuri sa mga log ng pag-iisip, natagpuan nila ang isang hindi inaasahang punto ng pagsisimula: ang mga indikador ng speculative sampling ay maaaring gamitin bilang isang signal ng referensya para sa pagkakakilanlan ng anomaliya.

Ang speculative sampling ay isang teknik para sa pagpapabuti ng performance na orihinal na ginagamit. Una, ginagawa ng draft model ang mga kandidatong token, at pagkatapos ay pinapatunayan at pinapasyahan ng target model kung tatanggapin o hindi, upang mapabuti ang efficiency ng decoding nang hindi nagbabago sa huling distribusyon ng output.

Ipinapagawa muna ng maliliit na modelo ang isang serye ng mga sagot, at pagkatapos ay pinipili ng malalaking modelo ang tama, kaya ito ay mabilis at tama.

Nakita ng team ng ZhiPu na kapag nangyayari ang anomaliya, ang dalawang indikador ng speculative sampling ay nagpapakita ng patuloy na pattern. Kaya, ipinalawig nila ang speculative sampling mula sa simpleng pagpapabuti ng performance patungo sa real-time monitoring signal ng kalidad ng output.

Kapag patuloy na mas mababa sa 1.4 ang spec_accept_length at ang haba ng pagbuo ay lumampas na sa 128 token, o kapag hihigit sa 0.96 ang spec_accept_rate, aktibong sisirain ng sistema ang kasalukuyang pagbuo at ipapasa ang kahilingan sa load balancer para sa pagkakataon muli.

Ang mga numero na ito ay parang mga indikador sa pagsusuri ng kalusugan; kung may anomaliya, ibig sabihin ay “sick” ang modelo at kailangan itong i-restart para sa paggamot.

Habang hindi nadidama ng user ang proseso, natapos ng backend ang ganitong pag-restart.

Ang pangunahing sanhi ng anomaly ay ang conflict sa pagbabahagi ng KV Cache.

Parang sa kusina, sa oras ng pagkain, maraming tao ang dumadating nang sabay-sabay para mag-order.

Kailangan ng sistema na pansamantalang i-save ang bawat konteksto ng user, o ang KV Cache. Ano ang pinag-order ng bisita kanina, kung gusto nilang kaunti lang ang sili o ayaw nila ang koriandero. Mabuti kung isa o dalawa lang ang bisita, ngunit kapag dami na, madaling mali ang serbisyero.

MiniMax

Sa mataas na pagkakasundo, ang ilang cache ay binawi, muli gamitin, at binasa sa maling pagkakasunod-sunod. Bilang resulta, maaaring makuha ng modelo ang maling konteksto at mag-output ng mga kalituhan, pag-uulit, o mga karaniwang titik.

Sa loob ng inference engine, may inconsistency sa pagkakaayos ng buhay ng request at pag-recycle at pag-reuse ng KV Cache sa ilalim ng PD separation architecture. Kapag malaki ang concurrent pressure, lumalaki ang conflict, at ito ay nakikita sa galing ng user bilang乱码 at pag-uulit.

Kaya ang maraming hiling na sumisigaw para sa isang block ng memorya, nagresulta sa pagkakalito ng data, at ang nakikita ng user ay mga kahaliling karakter.

Nakatukoy ng bug ang team ng ZhiPu at nilutas na ito.

Dagdag pa, natuklasan at nalutas nila ang kawalan ng tamang pagkakasunod-sunod sa pag-load ng HiCache module sa antas ng source code ng pangunahing open-source inference framework na SGLang, na kilala bilang read-before-ready.

Ang solusyon ay isinumite sa komunidad ng SGLang sa pamamagitan ng Pull Request #22811 at ayunan.

Ang SGLang ay isang open-source project, kung saan ang buong pangalan ay maaaring maintindihan bilang isang framework para sa inference o serbisyo para sa malalaking language model. Hindi ito isang malaking model o isang AI company, kundi isang base software na nagpapahintulot sa malalaking model na mag-run nang epektibo.

Nakakita ang Zhipu ng isang bug sa cache sa mataas na pagkakasunod-sunod habang ginagamit ang open-source inference framework na SGLang.

Hindi ito nag-repair lamang sa loob nito; ang Zhipu ay nag-submit din ng code na nag-repair sa open-source project na SGLang.

Matatanggap at i-merge ng tagapag-alaga ng proyekto. Kaya, naging bahagi ng pampublikong bersyon ang pagkakaroon ng pagpapabuti, at maaari rin ng iba pang mga developer at kumpanya na gumagamit ng SGLang ang paggamit nito.

Ano ang ibig sabihin nito?

Kung ang isang deployment path ng Qwen ay gumagamit ng SGLang+HiCache, masasagana rin ang Alibaba dahil sa pagkakakita at pagpapabuti ng problema ng Zhipu.

Ang parehong pahayag pa rin, hindi nagbago ang modelo, ngunit sa pamamagitan ng engineering optimization, mas matalino ito sa paggamit.

02

Ang blog na ito ng Zhipu ay tunay na tinukoy ang isang mas malalim na antas.

Ang kagandahan sa panahon ng chatbot ay malaking bahagi mula sa mababang gastos sa pagtuturo, at ang ilang mga set ng pagtuturo ay galing sa distilasyon ng mga modelo sa kahulugan.

Sa panahon ng Agent, hindi na gumagana ang paraang ito.

Sa taong ito, tinanggal ng Anthropic at OpenAI ang mga entry point para sa distillation at malinaw na ipinagbawal ang paggamit ng kanilang model output para train ang mga kompetitibong modelo. Ang daan ng paggamit ng distillation bilang paraan ng pagpapadali ay patuloy na nagiging mas maliit.

Ngunit ang kuwento tungkol sa value-for-money ng mga Chinese AI company ay hindi nagkamali; sa halip, ang merkado ay nagdaragdag pa sa kuwentong ito.

Dahil sa pagbabago ng kahulugan ng value for money.

Sa panahon ng chatbot, ang karaniwang konteksto ay 55K tokens, isang pagkakataon sa usapan, mababang concurrency.

Sa panahon ng Agent, ang average na konteksto ay 70K+ tokens, mahabang panahon na mga gawain (8-oras na antas), mataas na pagkakasabay at mataas na paggamit ng mga unang bahagi.

Sa panahon ng chatbot, ang yunit ng pagpapahalaga ng AI ay simpleng: kapag tinatanong ang parehong tanong, sino ang mas mura ang modelo at sino ang sagot ay mas malapit sa antas ng unang linya.

Ang industriya ay nag-uusap tungkol sa presyo bawat milyong token, laki ng mga parameter ng modelo, at kung gaano kataas ang mga resulta sa listahan.

Sa panahon ng Agent, walang nagtatanong tungkol dito, nagkamali na ang algorithm na ito.

Hindi bumibili ang user ng isang sagot. Bumibili siya ng resulta ng isang kumpletong gawain.

Isang Coding Agent ay kailangang basahin ang code, maunawaan ang konteksto, magplano ng mga hakbang, gamitin ang mga kasangkapan, baguhin ang mga file, jalurin ang mga pagsubok, at subukang muli kung nabigo. Ang mga token na ginagamit nito ay hindi isang dagdag sa isang tanong-tugon, kundi ang kabuuang tala ng isang workflow.

Bilang pinakamalaking platform para sa pagtawag sa buong mundo, ang kabuuang bilang ng token na naproseso ng OpenRouter ay tumataas mula sa 6.4 trilyon noong unang linggo ng Enero 2026 patungo sa 13 trilyon noong linggo ng Pebrero 9, na nagdulot ng pagdoble sa loob ng isang buwan.

Ayon sa opisyal na pahayag ng OpenRouter, ang pagtaas ng pagtawag sa interval ng 100K hanggang 1M na haba ng teksto ay ang karaniwang paggamit sa agent workflow.

Ang paraan ng paggamit ng AI ng mga tao ay nagbago mula sa “dialogue-based” patungo sa “workflow-based.” Kaya, ang yunit ng halaga ng AI ay nagbago mula sa “presyo bawat token” patungo sa “presyo bawat task.”

Dahil dito, may ilang model na ang kanilang token ay mura, ngunit dahil sa hindi magandang performance ng model, madalas itong mabigo sa paggawa ng task, o ang resulta ng task ay hindi nakakamit ang mga pamantayan, kaya ang presyo ng kanilang agent ay hindi talaga mura.

Halimbawa, isang 8-hour coding task, kung isang beses lang magkakaroon ng乱码, maaaring kailanganin mong muling simulan ang buong workflow. Ang natipid na presyo ng token ay hindi makakapagpabalik sa nawalang oras.

Ang narrative tungkol sa value-for-money ng Chinese AI ay patuloy na umuunlad.

Kanina ay sinabi na “I-output ang parehong antas ng sagot, mas mura ako.” Ngayon ay sinabi na “Sa parehong kumplikadong gawain, kayang kong tapusin nang mas mababang gastos.”

Ang open-source infrastructure ay nagsisilbing bagong moat para sa AI sa China.

Kung gayon ang SGLang na nabanggit sa nakaraan. Ang engineering capability ng China AI ay nagsisimula nang magpalabas patungo sa mga komunidad sa itaas.

Hindi lamang halaga nito ang pag-ayos ng isang bug ng Zhipu, kundi ang pagiging nagtatag ng mga kakayahan sa pampublikong imprastruktura ng mga Chinese AI company sa mga problema tulad ng mataas na concurrency, mahabang konteksto, at pagtawag sa agent sa totoong negosyo.

Tulad na nabanggit sa nakaraan, kapag isang pagpapabuti ay ipinapakilala sa isang open-source framework tulad ng SGLang, hindi na ito naglilingkod lamang sa mga modelo ng Zhipu. Ang lahat ng mga koponan na gumagamit ng framework na ito para sa pag-deploy ng malalaking modelo ay may pagkakataon na makakuha ng mas matatag na cache, mas mababang gastos sa inference, at mas mahusay na experience sa agent.

Ang kakayahan ng modelo ay maaaring matagpuan, ang presyo ay maaaring bawasan, ngunit ang imprastruktura ay magiging istandard, interface, at mga gawain sa pag-unlad kung ito ay pumasok sa open-source ecosystem.

Sino ang mas mauna na isinusulat ang kanyang karanasan sa engineering sa mga piling sistemang ito, siya ang mas madaling makakakuha ng posisyon sa susunod na pag-usbong ng AI applications.

03

Bumalik sa kapital na merkado.

Ang lahat ng mga aksyon na may kinalaman sa malalaking modelong AI ay umakyat, handa ba ang kapital na magbigay ng bagong presyo sa mga kumpanyang AI? Ano nga ba ang binibili ng merkado?

Ang sagot ay ang mga kapital na merkado ay nagbabayad para sa kuwento na “ang mga Chinese AI company ay makakagawa ng halos parehong antas ng intelligence gamit ang mas mababang pagpapatakbo na gastos.”

Patuloy na gamitin ang data ng OpenRouter.

Ang bahagi ng paggamit ng token ng mga pinakamalalaking Chinese AI company ay tumaas nang mabilis mula sa 5% noong Abril 2025 patungo sa 32% noong Marso 2026. Ang bahagi ng mga pinakamalalaking modelong Amerikano ay bumaba nang malaki mula sa 58% patungo sa 19%.

Ang paggamit ng token ni MiniMax, Zhipu, at Alibaba ay tumataas ng 4-6 beses noong Pebrero-Marso 2026 kumpara sa Disyembre ng nakaraan.

Bukod sa pagtawag ng token, ang China AI ay nagpapabuo pa ng isang logika sa paglago na lubos na iba sa mga malalaking kumpanya sa labas ng bansa.

Ang mga pangunahing model sa abroad ay nagbebenta ng "premium sa kakayahan".

Mas malakas ang model capability, mas mahal ang isang pagtawag. Binabayaran ng mga user ang pinakamalakas na智能化. Naglalakad ang Claude, GPT-5, at Gemini patungo sa direksyong ito.

Ang Chinese AI ay bumebenta ng "engineering".

Ang kakayahan ng modelo ay malapit na sa mga lider na modelo, ngunit mas mababa ang presyo, latency, at mga pamantayan sa pagtawag, at mas angkop sa pangangailangan ng karamihan sa mga high-frequency na skena.

Sa report ng Morgan Stanley, binanggit na ang input price ng Chinese model ay humigit-kumulang $0.3/milyong token, habang ang ilang katulad na produkto sa abroad ay nasa paligid ng $5. Mayroong pagkakaiba ng sampu-sampu ang pagkakaiba.

Kapag naging produktibong kasangkapan ang AI mula sa isang tool para sa pagsubok, ang value for money ang diretso na magdedesisyon sa tantiyang paggamit.

Mas mura ang model, mas maraming gawain ang kaya ng negosyo na ipagkaloob sa ito—tulad ng customer service, code, marketing, at data analysis. Mas maraming gawain na isinasagawa, mas malaki ang token consumption, at mas mabilis ang pagbabawas ng gastos sa infrastraktura ng platform.

MiniMax

Naniniwala ako na sa bahaging ito, posible na umusbong ang isang flywheel.

Ang unang yugto ay nag-aalok ng mas mababang API price at mas malapit sa pangunahing kakayahan upang tarhikin ang mga developer at mga negosyo.

Pangalawang round, ang mas mataas na paggamit ng call ay magdadala ng higit pang mga totoong skenaryo, na nagpapakailangan sa modelo at sistema ng pag-iisip na patuloy na mapabuti.

Ikatlong yugto, na tinukoy sa teknikal na blog ng Zhipu, ay ang paggamit ng engineering optimization upang bawasan ang gastos bawat token at bawat task, upang bigyan ng kakayahan ang mga manufacturer na patuloy na bawasan ang presyo, dagdagan ang volume, o tumaas sa mga mataas na halagang escenario.

Sa ikapitong bilog, kapag ang paggamit ng token ay naging bagong traffic sa panahon ng AI, sino man ang kayang magdala ng mas maraming token sa mas mababang gastos, siya ang mas malapit sa susunod na yugto ng isang platform na kumpanya.

Kung ang pagbaba ng presyo ay tanging dahil sa modelo, mag-aalala ang merkado na ito ay isang subsidy at pakikidigma sa presyo, lalong lumalala ang paggastos, at mayroong laging isang tao na hindi makakapagpatuloy sa kanyang wallet.

At hindi makakapagbigay ng mataas na pagtataya ang pakikidigma sa presyo.

Ngunit kung ang pagbaba ng presyo ay dahil sa pagtaas ng throughput, paggamit muli ng cache, pagbaba ng rate ng anomaly, at pagpapabuti ng efficiency ng scheduling, ang mababang presyo ay hindi pagkawala ng kita para sa paglago, kundi ang pagkakataon sa gastos na nagmumula sa pagpapalakas ng engineering.

Ang resulta ng pakikidigma sa presyo at ganitong uri ng pagpapabuti ng inhinyeriya, bagaman pareho ay nagpapababa ng gastos ng modelo at maaaring magmukhang magkakatulad sa mga tala ng pagsusuri, ay malayo sa isang modelo ng pagtataya.

Ang una ay subsidy, at ang merkado ay magiging discount. Ang pangalawa ay engineering barrier, at ang merkado ay magiging premium.

Maaari huling magresulta sa isang pagtataya.

Noong nakaraan, ang pagpapahalaga sa mga kumpanya ng AI ay batay sa kakayahan ng modelo at kung sino ang mas malapit sa AGI. Noong panahong iyon, binabayad ng merkado ang “pinakamalakas na intelehensya,” at ang depinisyon ng pinakamalakas na intelehensya ay naging mas malabo, habang tumataas ang presyo bawat pagtawag.

Sa panahon ngayon ng agent, ang pagtataya ay nakadepende pa rin sa mababang gastos. Titingnan kung sino ang makakapagbigay ng matalinong, matatag, at murang solusyon sa malaking iskala.

Para sa mga naghihinga ng pinakamataas na “inteligensya”, maaaring hindi ito ang lakas ng Chinese AI.

Gayunpaman, ang China AI ang pinakamalaking posibilidad na gawing imprastruktura na accessible sa lahat ng tao at negosyo ang mga salitang “inteligent”.

At ang merkado ay handang magbayad lamang sa mga kumpanya na makapagsasalaysay nang malinaw ng kanilang lohika.

Nakuha mula sa WeChat public account na "Letter List" (ID: wujicaijing), may-akda: Miao Zheng