Pengoptimuman Kejuruteraan Zhipu AI Mendorong Kecekapan Kos dan Keyakinan Pasaran

Hari perdagangan pertama selepas cuti Hari Pekerja, Zhipu dan MiniMax naik dengan gila-gilaan.

Pada 4 Mei, Zhipu meningkat lebih daripada 10%, harga sahamnya sekali lagi mendekati paras RM1,000, manakala MiniMax melonjak 12.62% dan menutup pada HK$803.

Menurut laporan Morgan Stanley, kenaikan harga saham disebabkan oleh narasi "nilai terbaik" unik China dalam AI.

Morgan Stanley dalam laporan “China’s AI Path: More Bang For The Buck” menyatakan bahawa, di bawah kekangan kapasiti pengiraan, tahap kecerdasan model terkemuka di China dan Amerika Syarikat sedang mendekati dengan cepat, dan jurangnya telah menyempit kepada 3 hingga 6 bulan.

Sementara itu, laporan tersebut menunjukkan bahawa kelebihan sebenar model China ialah mampu mencapai tahap kecerdasan yang hampir setara dengan kos inferens hanya 15% hingga 20% berbanding rakan sebaya Amerika.

Perkataan ini sebenarnya mudah difahami. Tidak semua orang perlu menggunakan model terkuat, tetapi kebanyakan orang ingin menggunakan model yang lebih murah.

Pasar bukan membeli cerita sederhana "penggantian tempatan", tetapi AI China sedang menukar nilai berbanding harga menjadi penggunaan sebenar, pendapatan sebenar, dan elastisitas penilaian sebenar.

Tetapi masalah timbul, di manakah nilai ini datang?

Jika hanya untuk mendapatkan pelanggan dengan harga rendah, ia akan dengan cepat berubah menjadi perang harga.

Jika hanya berdasarkan pelatihan model, namun sekarang perusahaan seperti Anthropic dan OpenAI telah menutup akses kepada pelatihan, bukankah penilaian seharusnya turun? Mengapa malah dinaikkan?

Sebenarnya, yang membuat naratif ini menjadi lebih meyakinkan ialah blog teknikal yang diterbitkan Zhipu sebelum Hari Pekerja, "Scaling Pain: Praktik Inferens Agens Coding Berskala Sangat Besar".

Blog ini tidak membincangkan visi AGI yang besar, tetapi membongkar rekabentuk asas seperti KV Cache, throughput, penjadualan, dan output anomali kepada pasaran.

Yang paling penting, ia telah “membongkar” rahsia di sebalik nilai cemerlang AI China.

01

Dalam blog ini, Zhipu menjelaskan bagaimana mengoptimalkan cache, penjadwalan, dan pemantauan pengecualian untuk memungkinkan GPU yang sama melakukan lebih banyak tugas dengan lebih sedikit kesalahan.

ZhiPu menemui bahawa AI tidak berfungsi dengan baik bukan semata-mata kerana model tidak cerdas, tetapi mungkin kerana sistem latar belakang terlalu kacau. Ia memperbaiki masalah data cache yang tersusun, mengoptimumkan penjadualan GPU dan penggunaan semula cache, serta menambahkan penggera yang mampu mengesan output aneh sebelum ia berlaku.

Hasilnya, model yang sama dan GPU yang sama mampu melayani lebih banyak pengguna dengan kebarangkalian ralat yang lebih rendah. Oleh itu, naratif “nilai untuk wang” bukan sekadar penurunan harga, tetapi melalui pengoptimuman kejuruteraan, setiap GPU ditekan untuk menghasilkan lebih banyak kuasa pengiraan yang stabil dan boleh digunakan.

Selepas pengoptimuman kejuruteraan asas, throughput sistem bagi siri GLM-5 dalam skenario Coding Agent meningkat sehingga 132%, dan kadar output anomali sistem turun daripada sekitar 10 dalam 10,000 kepada 3 dalam 10,000.

Sebagai contoh, sebelum ini satu GPU mampu melayani 100 tugas sejam, tetapi selepas pengoptimuman, ia kini boleh melayani sehingga 232 tugas.

Setiap elemen secara individu tidak cukup untuk menentukan kemenangan atau kekalahan. Tetapi apabila digabungkan, ia menghasilkan peningkatan throughput sebanyak dua kali ganda dan peningkatan kestabilan lebih dari satu peringkat dalam kekuatan pengiraan yang sama.

Model tidak berubah. Yang berubah adalah cara model digunakan.

Secara khusus, sejak Mac, Zhipu telah mengamati tiga jenis fenomena aneh dalam pemantauan dalam talian dan maklum balas pengguna untuk GLM-5: kod yang tidak dapat dibaca, pengulangan, dan aksara jarang digunakan. Fenomena-fenomena ini secara lahiriah serupa dengan “penurunan kecerdasan” yang biasa berlaku dalam skenario konteks panjang.

Namun, pasukan ZhiPu tidak melancarkan sebarang pengoptimuman yang mengurangkan ketepatan model. Jadi, anomali tersebut berasal daripada model itu sendiri, atau daripada rantai inferens?

Selepas menganalisis dan menarik kesimpulan daripada log analisis berulang, mereka menemui titik masuk yang tidak disangka: indikator pengambilan spekulatif boleh digunakan sebagai isyarat rujukan untuk pengesanan anomali.

Sampling dengan spekulasi awalnya hanyalah teknik pengoptimuman prestasi. Model draf terlebih dahulu menghasilkan token kandidat, kemudian model sasaran mengesahkan dan menentukan sama ada menerima atau tidak, untuk meningkatkan kecekapan dekod tanpa mengubah taburan output akhir.

Cukup biarkan model kecil menghasilkan sekumpulan jawapan dengan pantas, kemudian model besar memilih jawapan yang betul, cara ini cepat dan tepat.

Pasukan ZhiPu mendapati bahawa apabila keanehan berlaku, dua indikator pengambilan spekulatif menunjukkan corak yang stabil. Oleh itu, mereka mengembangkan pengambilan spekulatif daripada sekadar pengoptimuman prestasi kepada isyarat pemantauan masa nyata terhadap kualiti output.

Apabila spec_accept_length berterusan di bawah 1.4 dan panjang generasi telah melebihi 128 token, atau spec_accept_rate melebihi 0.96, sistem akan menghentikan generasi semasa secara aktif dan menghantar permintaan tersebut kepada load balancer untuk cuba semula.

Dua nombor ini seperti indikator pemeriksaan kesihatan; sekiranya tidak normal, ia menunjukkan bahawa model "sakit" dan perlu dimulakan semula untuk rawatan.

Pengguna tidak menyedari proses ini, tetapi belakang layar sebenarnya telah menyelesaikan satu kali restart semula.

Punca utama kecacatan ialah konflik semula jadi KV Cache.

Ia seperti dapur, pada waktu puncak jam makan, ramai orang datang untuk memesan pada masa yang sama.

Sistem perlu menyimpan sementara konteks setiap pengguna, iaitu KV Cache. Apa yang pelanggan ini pesan tadi, adakah ingin kurang pedas atau tidak suka daun ketumbar. Satu atau dua pelanggan mungkin masih boleh diingat, tetapi apabila bilangan pelanggan bertambah, pelayan mudah keliru.

MiniMax

Semasa beban tinggi, urutan pemulihan, penggunaan semula, dan pembacaan cache tertentu menjadi tidak teratur. Akibatnya, model mungkin mengambil konteks yang salah, yang boleh menghasilkan teks rawak, pengulangan, atau aksara jarang.

Dalam enjin penalaran, di bawah arsitektur pemisahan PD, terdapat ketidakkonsistenan antara kitaran permintaan dengan urutan pemulihan dan penggunaan semula KV Cache. Apabila tekanan serentak meningkat, konflik menjadi lebih teruk, yang ditunjukkan di sisi pengguna sebagai kod acak dan pengulangan.

Maka, beberapa permintaan bersaing untuk memori yang sama, menyebabkan data menjadi kacau, dan pengguna melihat kod tersasar.

Timm智谱 telah mengenal pasti bug ini dan membaikinya.

Selain itu, mereka juga menemui dan memperbaiki masalah kehilangan urutan pemuatan modul HiCache pada peringkat sumber kerangka inferensis open-source utama SGLang, iaitu read-before-ready.

Penyelesaian telah dihantar kepada komuniti SGLang melalui Pull Request #22811 dan telah diterima.

SGLang adalah projek sumber terbuka, yang nama penuhnya boleh difahami sebagai kerangka kerja inferens/peredaran yang ditujukan kepada model bahasa besar. Ia bukan model besar, bukan juga syarikat AI, tetapi satu set perisian asas yang membolehkan model besar beroperasi dengan cekap.

ZhiPu menemui ralat cache berperingkat tinggi semasa menggunakan kerangka inferens open-source SGLang.

Ia tidak hanya membaiki sendiri, Zhipu juga menghantar kod pembaikan kepada projek sumber terbuka SGLang.

Setelah disemak dan digabungkan oleh pemelihara projek, pembaikan ini telah dimasukkan ke dalam versi awam, membolehkan pembangun dan syarikat lain yang menggunakan SGLang menggunakannya seterusnya.

What does this mean?

Jika salah satu laluan penghantaran Qwen menggunakan SGLang+HiCache, maka Alibaba juga akan mendapat manfaat daripada penemuan dan pembaikan masalah ini oleh Zhipu.

Masih perkataan yang sama tadi, modelnya tidak berubah, tetapi melalui pengoptimuman kejuruteraan, ia menjadi lebih bijak semasa digunakan.

02

Blog ZhiPu sebenarnya menembus satu peringkat yang lebih dalam.

Kemurahannya di era chatbot sebahagian besar datang daripada kos latihan yang rendah, dengan sebahagian set latihan diperoleh daripada distilasi model teratas.

Di era agen, trik ini tidak berfungsi.

Sejak awal tahun ini, Anthropic dan OpenAI berturut-turut menutup saluran distilasi, secara jelas melarang penggunaan output model mereka untuk melatih model pesaing. Jalan pintas melalui distilasi semakin menyempit.

Namun naratif berkenaan nilai terbaik bagi syarikat AI China tidak melemah, sebaliknya pasaran semakin memperkuat cerita ini.

Sebabnya ialah definisi nilai untuk wang telah berubah.

Pada era chatbot, konteks purata 55K token, satu percakapan, kepadatan rendah.

Zaman Agen, purata konteks 70K+ token, tugas jangka panjang (peringkat 8 jam), konsistensi tinggi, penggunaan semula awalan tinggi.

Di era chatbot, unit pengukuran nilai AI adalah sangat mudah. Untuk soalan yang sama, model siapa yang lebih murah dan jawapannya lebih dekat kepada tahap terdepan.

Industri membincangkan berapa harga setiap juta token, seberapa besar parameter model, dan seberapa tinggi pencapaian dalam senarai.

Di era agent, tiada yang bertanya tentang ini, algoritma ini tidak berfungsi lagi.

Pelanggan bukan lagi membeli satu jawapan. Dia membeli hasil penyelesaian tugas yang lengkap.

Seorang agen pengkodean perlu membaca kod, memahami konteks, merancang langkah-langkah, memanggil alat, mengubah fail, menjalankan ujian, dan mencuba semula jika gagal. Token yang digunakan bukan peningkatan sekali jawab, tetapi jumlah keseluruhan alur kerja.

OpenRouter sebagai platform pemanggilan terbesar di dunia, jumlah token yang diproses seminggu meningkat dari 6.4 trilion pada minggu pertama Januari 2026 menjadi 13 trilion pada minggu 9 Februari, berlipat ganda dalam sebulan.

Menurut pihak OpenRouter, permintaan panggilan tambahan dalam julat teks panjang 100K hingga 1M adalah skenario penggunaan klasik untuk alur agen.

Penggunaan AI oleh orang ramai telah berpindah dari model “perbualan” kepada model “aliran kerja”. Oleh itu, unit kecekapan kos AI juga telah berubah dari “harga setiap token” kepada “harga setiap tugas”.

Ini menyebabkan beberapa model memiliki token yang murah, tetapi kerana prestasi model yang lemah, ia sering gagal semasa menjalankan tugas, atau hasil tugas tidak memenuhi piawaian, sehingga harga agennya tidaklah murah.

Sebagai contoh, tugas Coding pada tahap 8 jam, sekiranya berlaku gangguan sekali sahaja, keseluruhan alur kerja mungkin perlu diulang. Harga token yang dijimatkan tidak mampu memulihkan masa yang terbuang.

Cerita nilai terbaik untuk AI China sedang ditingkatkan.

Sebelum ini, saya berkata, "Saya memberikan jawapan dengan tahap yang sama, tetapi lebih murah." Sekarang, saya berkata, "Untuk tugas yang sama kompleksnya, saya boleh menyelesaikannya dengan kos yang lebih rendah."

Infrastruktur sumber terbuka juga sedang menjadi parit pertahanan baru untuk AI di China.

SGLang yang disebutkan sebelumnya adalah contohnya. Kemampuan kejuruteraan AI China mula menyebar ke komuniti hulu.

Nilai perkara ini bukan sahaja terletak pada Zhipu yang membaiki satu bug, tetapi pada syarikat AI China yang sedang mengubah masalah konkrit dalam perniagaan seperti arus tinggi, konteks panjang, dan panggilan agen menjadi kemampuan infrastruktur awam.

Seperti yang telah disebutkan sebelumnya, apabila satu pembaikan dimasukkan ke dalam kerangka sumber terbuka seperti SGLang, ia tidak lagi hanya melayani model milik Zhipu semata. Semua pasukan yang menggunakan kerangka ini untuk melancarkan model besar, berpeluang mendapat cache yang lebih stabil, kos inferens yang lebih rendah, dan pengalaman agen yang lebih baik.

Kemampuan model boleh ditgejar, harga boleh ditekan, tetapi infrastruktur sekali memasuki ekosistem sumber terbuka, ia akan menjadi piawaian, antaramuka, dan kebiasaan pembangunan.

Siapa yang lebih awal menulis pengalaman kejuruteraan mereka ke dalam sistem asas ini, akan lebih mudah mengekalkan kedudukan mereka semasa letusan aplikasi AI seterusnya.

03

Kembali ke pasaran modal.

Saham-saham berkaitan model AI besar semuanya naik, adakah modal bersedia menetapkan semula harga bagi syarikat-syarikat AI? Apa sebenarnya yang dibeli oleh pasaran?

Jawapannya ialah, pasaran modal sedang membayar untuk naratif bahawa "syarikat AI China mampu menghasilkan kecerdasan yang hampir setara dengan yang terkemuka dengan kos inferens yang lebih rendah".

Masih berdasarkan data OpenRouter.

Pangsa penggunaan token oleh syarikat AI terkemuka China meningkat dengan cepat dari 5% pada April 2025 kepada 32% pada Mac 2026. Pangsa model terkemuka Amerika merosot drastik dari 58% kepada 19%.

Penggunaan token oleh MiniMax, Zhipu, dan Alibaba meningkat 4-6 kali ganda pada Februari-Mac 2026 berbanding Disember tahun lepas.

Selain panggilan token, AI China juga sedang membentuk logik pertumbuhan yang sama sekali berbeza daripada raksasa luar negara.

Model terkemuka luar negara menjual "premium kemampuan".

Semakin kuat kemampuan model, semakin mahal setiap panggilan tunggal, dan pengguna membayar untuk kecerdasan paling canggih. Claude, GPT-5, dan Gemini semuanya bergerak ke arah ini.

AI China menjual "kejuruteraan".

Kemampuan model mendekati model terkemuka, tetapi harga, latensi, dan ambang panggilan lebih rendah, lebih sesuai dengan keperluan kebanyakan skenario frekuensi tinggi.

Laporan Morgan Stanley menyebutkan bahawa harga input model China adalah sekitar US$0.3 per juta token, sementara harga produk serupa di luar negara berada sekitar US$5. Terdapat perbezaan sebanyak beberapa kali ganda di antara keduanya.

Apabila AI berubah daripada alat percubaan kepada alat produktiviti, nilai untuk wang akan menentukan frekuensi panggilan secara langsung.

Semakin murah modelnya, semakin berani perusahaan memberikan lebih banyak tugas seperti perkhidmatan pelanggan, kod, pemasaran, dan analisis data kepadanya. Semakin banyak tugas yang dijalankan, semakin besar penggunaan token, dan semakin berkesan platform dalam mengurangkan kos infrastruktur.

MiniMax

Saya rasa dalam bahagian ini, ia berpotensi membentuk satu roda penerbangan.

Putaran pertama menarik pembangun dan perusahaan dengan harga API yang lebih rendah dan kemampuan yang lebih dekat dengan garis depan.

Putaran kedua, penggunaan panggilan yang lebih tinggi akan membawa lebih banyak skenario sebenar, memaksa model dan sistem inferens untuk terus dioptimakan.

Putaran ketiga, yang dibincangkan dalam blog teknikal Zhipu, ialah menggunakan pengoptimuman kejuruteraan untuk mengurangkan kos per token dan per tugas, membolehkan pengilang terus menurunkan harga, meningkatkan jumlah, atau menaikkan harga dalam skenario bernilai tinggi.

Putaran keempat, apabila penggunaan token menjadi arus baharu di era AI, siapa yang mampu menampung lebih banyak token dengan kos yang lebih rendah, mereka akan lebih dekat kepada perusahaan platform pada peringkat seterusnya.

Jika hanya model yang mengalami penurunan harga, pasaran akan bimbang bahawa ini adalah subsidi dan perang harga, yang semakin memakan banyak dana, dan akhirnya ada saja yang dompetnya tidak mampu bertahan.

Selain itu, perang harga tidak dapat menyokong penilaian tinggi.

Namun, jika penurunan harga didorong oleh peningkatan throughput, penggunaan semula cache, penurunan kadar anomali, dan peningkatan kecekapan penskedyulan, maka harga rendah bukanlah pengorbanan keuntungan demi pertumbuhan, tetapi ruang kos yang dilepaskan oleh kemampuan kejuruteraan.

Hasil daripada perang harga dan pengoptimuman kejuruteraan ini, walaupun kedua-duanya membuat model lebih murah dan kelihatan hampir sama dalam laporan kewangan, sangat berbeza dalam model penilaian.

Yang pertama adalah subsidi, pasaran akan diberi diskaun. Yang kedua adalah rintangan kejuruteraan, pasaran akan diberi premium.

Akhirnya boleh disimpulkan satu penilaian.

Dulu, penilaian syarikat AI bergantung pada batasan keupayaan model dan siapa yang lebih dekat kepada AGI. Pada masa itu, pasaran membayar untuk “kecerdasan terkuat”, dan definisi kecerdasan terkuat menjadi semakin kabur, sementara kos setiap panggilan meningkat.

Di era agent sekarang, penilaian masih bergantung pada batas bawah kos. Lihat siapa yang mampu menghantar kecerdasan secara stabil, murah, dan berskala besar.

Untuk yang mencari “kecerdasan” paling canggih, ini mungkin bukan kekuatan AI China.

Namun, AI China adalah yang paling mungkin menjadikan dua kata "kecerdasan" sebagai infrastruktur yang boleh diakses oleh semua orang dan perusahaan.

Namun, pasaran hanya bersedia membayar kepada syarikat yang mampu menjelaskan logik mereka dengan jelas.

Artikel ini berasal daripada akaun微信公众号 "Letter Bench" (ID: wujicaijing), penulis: Miao Zheng