Optimasi Teknik Zhipu AI Mendorong Efisiensi Biaya dan Kepercayaan Pasar

Hari perdagangan pertama setelah liburan Hari Buruh, Zhipu dan MiniMax naik sangat tajam.

Pada 4 Mei, Zhipu naik lebih dari 10%, harga saham kembali mendekati level seribu yuan, MiniMax melonjak 12,62% dan ditutup pada 803 dolar Hong Kong.

Menurut laporan Morgan Stanley, kenaikan harga saham disebabkan oleh narasi "nilai terbaik" unik dari AI Tiongkok.

Morgan Stanley dalam laporan berjudul "China’s AI Path: More Bang For The Buck" menyatakan bahwa, dalam kondisi kapasitas komputasi terbatas, tingkat kecerdasan model terkemuka di Tiongkok dan Amerika Serikat sedang cepat mendekat, dengan kesenjangan yang menyempit menjadi 3 hingga 6 bulan.

Laporan tersebut juga menunjukkan bahwa keunggulan sebenarnya dari model China adalah mampu mencapai tingkat kecerdasan yang hampir setara dengan biaya inferensi hanya 15% hingga 20% dari rekan-rekan Amerika.

Kalimat ini sebenarnya sangat mudah dipahami. Tidak semua orang perlu menggunakan model terkuat, tetapi sebagian besar orang ingin menggunakan model yang lebih murah.

Pasar tidak membeli cerita sederhana tentang "penggantian lokal", melainkan AI Tiongkok sedang mengubah nilai harga menjadi volume penggunaan nyata, pendapatan nyata, dan elastisitas valuasi nyata.

Tetapi pertanyaannya muncul, dari mana sebenarnya nilai ini berasal?

Jika hanya berfokus pada akuisisi pelanggan dengan harga rendah, itu akan cepat berubah menjadi perang harga.

Jika hanya dilakukan model distillation, namun sekarang perusahaan seperti Anthropic dan OpenAI telah menutup akses distillation, bukankah peringkat seharusnya turun? Mengapa justru dinaikkan?

Faktanya, yang membuat narasi ini menjadi lebih meyakinkan adalah blog teknis yang dirilis Zhipu sebelum Hari Buruh, berjudul "Scaling Pain: Praktik Inferensi Coding Agent Skala Sangat Besar".

Blog ini tidak membahas visi AGI yang megah, tetapi membuka secara terbuka kepada pasar teknik dasar seperti KV Cache, throughput, scheduling, dan output异常.

Yang paling penting, ia telah "membongkar" rahasia di balik nilai bagus AI Tiongkok.

01

Dalam blog ini, Zhipu menjelaskan bagaimana mengoptimalkan cache, penjadwalan, dan pemantauan pengecualian untuk memungkinkan GPU yang sama melakukan lebih banyak pekerjaan dengan lebih sedikit kesalahan.

ZhiPu menemukan bahwa AI tidak berfungsi dengan baik bukan hanya karena modelnya tidak cerdas, tetapi juga bisa karena sistem latar belakang terlalu kacau. Mereka memperbaiki masalah data cache yang saling bersilangan, mengoptimalkan penjadwalan GPU dan pemanfaatan ulang cache, serta menambahkan alarm yang dapat mendeteksi output异常 secara dini.

Hasilnya, model yang sama dan GPU yang sama dapat melayani lebih banyak pengguna dengan probabilitas kesalahan yang lebih rendah. Jadi, narasi "nilai untuk uang" bukan sekadar penurunan harga, tetapi melalui optimasi teknis, setiap GPU dimanfaatkan untuk menghasilkan lebih banyak daya komputasi yang stabil dan dapat digunakan.

Setelah optimasi teknis dasar, throughput sistem pada skenario Coding Agent untuk seri GLM-5 meningkat hingga 132%, dan tingkat output异常 sistem turun dari sekitar 10 per sepuluh ribu menjadi 3 per sepuluh ribu.

Misalnya, sebelumnya satu GPU mampu melayani 100 tugas per jam, sekarang setelah dioptimalkan, secara maksimal bisa melayani hingga 232 tugas.

Setiap elemen secara terpisah tidak cukup untuk menentukan kemenangan. Namun, ketika digabungkan, ini menghasilkan peningkatan throughput dua kali lipat dan peningkatan stabilitas lebih dari satu orde dalam kondisi daya komputasi yang sama.

Modelnya tidak berubah. Yang berubah adalah cara model tersebut "digunakan".

Secara spesifik, sejak Maret, Zhipu mengamati tiga jenis anomali dalam pemantauan daring dan umpan balik pengguna untuk GLM-5: kode acak, pengulangan, dan karakter langka. Fenomena-fenomena ini secara permukaan mirip dengan "penurunan kecerdasan" yang umum terjadi dalam skenario konteks panjang.

Namun, tim Zhipu tidak meluncurkan optimasi apa pun yang mengurangi akurasi model. Lalu, anomali tersebut berasal dari model itu sendiri, atau dari rantai inferensi?

Setelah menganalisis log penalaran berulang kali, mereka menemukan titik masuk yang tak terduga: indikator sampling spekulatif dapat berfungsi sebagai sinyal referensi untuk deteksi anomali.

Sampling speculative awalnya hanyalah teknik optimasi kinerja. Pertama, model draf menghasilkan token kandidat, lalu model target memverifikasi dan memutuskan apakah akan menerimanya, sehingga meningkatkan efisiensi decoding tanpa mengubah distribusi output akhir.

Biarkan model kecil terlebih dahulu menghasilkan sejumlah jawaban dengan cepat, lalu model besar memilih jawaban yang benar, sehingga prosesnya cepat dan akurat.

Tim ZhiPu menemukan bahwa ketika terjadi anomali, dua indikator sampling spekulatif menunjukkan pola stabil. Oleh karena itu, mereka mengembangkan sampling spekulatif dari sekadar optimasi kinerja menjadi sinyal pemantauan real-time terhadap kualitas output.

Ketika spec_accept_length terus berada di bawah 1,4 dan panjang generasi telah melebihi 128 token, atau spec_accept_rate melebihi 0,96, sistem secara aktif menghentikan generasi saat ini dan mengalihkan permintaan ke load balancer untuk dicoba ulang.

Kedua angka ini seperti indikator pemeriksaan kesehatan; jika ada kelainan, itu menandakan model "sakit" dan perlu direstart untuk pengobatan.

Meskipun pengguna tidak menyadari proses ini, sistem backend sebenarnya telah menyelesaikan restart semacam ini.

Penyebab utama gangguan adalah konflik pemanfaatan ulang KV Cache.

Ini seperti dapur, di jam sibuk makan, banyak orang datang secara bersamaan untuk memesan.

Sistem harus menyimpan sementara konteks setiap pengguna, yaitu KV Cache. Pelanggan di meja ini tadi memesan apa, apakah ingin kurang pedas atau tidak suka daun ketumbar. Satu atau dua pelanggan mungkin masih bisa diingat, tetapi semakin banyak pelanggan, semakin mudah pelayan salah ingat.

MiniMax

Pada saat kinerja tinggi, urutan pembersihan, penggunaan ulang, dan pembacaan cache tertentu menjadi kacau. Akibatnya, model dapat mengambil konteks yang salah, sehingga menghasilkan teks acak, pengulangan, atau karakter langka.

Dalam mesin inferensi, di bawah arsitektur pemisahan PD, terdapat ketidaksesuaian antara siklus hidup permintaan dan urutan pemulihan serta pemanfaatan ulang KV Cache. Ketika tekanan konkuren meningkat, konflik diperbesar, yang terlihat di sisi pengguna sebagai kode acak dan pengulangan.

Jadi, beberapa permintaan bersaing secara bersamaan untuk memori yang sama, sehingga data menjadi kacau dan pengguna melihat kode acak.

Tim ZhiPu telah mengidentifikasi bug ini dan memperbaikinya.

Selain itu, mereka juga menemukan dan memperbaiki masalah ketiadaan urutan pemuatan pada modul HiCache di tingkat sumber kode kerangka inferensi open-source utama, SGLang, yaitu read-before-ready.

Solusi diperbaiki diajukan ke komunitas SGLang melalui Pull Request #22811 dan telah diterima.

SGLang adalah proyek open-source, yang dapat dipahami sebagai kerangka kerja inferensi/layanan untuk model bahasa besar. Bukan model besar, bukan perusahaan AI, melainkan perangkat lunak dasar yang memungkinkan model besar berjalan secara efisien.

ZhiPu menemukan bug cache konkurensi tinggi saat menggunakan kerangka kerja inferensi open-source SGLang.

It didn't just fix it internally; Zhipu also submitted the fix code to the open-source project SGLang.

Setelah ditinjau oleh pemelihara proyek, perbaikan tersebut diterima dan digabungkan. Dengan demikian, perbaikan ini masuk ke versi publik, sehingga pengembang dan perusahaan lain yang menggunakan SGLang juga dapat menggunakannya nanti.

What does this mean?

Jika salah satu jalur penyebaran Qwen menggunakan SGLang+HiCache, maka Alibaba juga akan mendapat manfaat karena Zhipu menemukan dan memperbaiki masalah ini.

Masih seperti yang dikatakan sebelumnya, modelnya tidak berubah, tetapi melalui optimasi teknis, ia menjadi lebih cerdas saat digunakan.

02

Blog ZhiPu sebenarnya menembus lapisan yang lebih dalam.

Harga murah di era chatbot sebagian besar berasal dari biaya pelatihan yang rendah, dengan sebagian dataset pelatihan berasal dari distilasi model puncak.

Di era Agent, trik ini tidak berlaku.

Sejak awal tahun ini, Anthropic dan OpenAI secara bertahap menutup akses distilasi, secara jelas melarang penggunaan output model mereka untuk melatih model pesaing. Jalur cerdik melalui distilasi semakin menyempit.

Namun narasi nilai terbaik untuk perusahaan AI Tiongkok tidak melemah, sebaliknya pasar justru semakin memperkuat cerita ini.

Alasannya adalah karena definisi nilai terhadap harga telah berubah.

Di era chatbot, konteks rata-rata 55K token, satu sesi percakapan, konkurensi rendah.

Di era Agent, rata-rata konteks lebih dari 70K token, tugas jangka panjang (tingkat 8 jam), konsistensi tinggi, dan tingkat penggunaan ulang awalan tinggi.

Di era chatbot, satuan pengukuran nilai AI sangat sederhana. Untuk pertanyaan yang sama, model siapa yang lebih murah dan jawabannya lebih mendekati tingkat terdepan.

Industri membahas berapa harga per juta token, seberapa besar parameter model, dan seberapa tinggi peringkatnya.

Di era Agent, tidak ada yang bertanya tentang ini, algoritma ini tidak berfungsi lagi.

Yang dibeli pengguna bukan sekadar jawaban. Ia membeli hasil penyelesaian tugas yang lengkap.

Sebuah Coding Agent harus membaca kode, memahami konteks, merencanakan langkah-langkah, memanggil alat, mengubah file, menjalankan pengujian, dan mencoba ulang jika gagal. Token yang dikonsumsinya bukan peningkatan sekali jawab, melainkan total biaya dari satu alur kerja.

OpenRouter sebagai platform pemanggilan terbesar di dunia, jumlah token yang diproses per minggu meningkat dari 6,4 triliun pada minggu pertama Januari 2026 menjadi 13 triliun pada minggu 9 Februari, melipatgandakan dalam satu bulan.

Menurut pernyataan resmi OpenRouter, permintaan panggilan inkremental pada rentang teks panjang 100K hingga 1M merupakan skenario konsumsi khas untuk alur agen.

Pola penggunaan AI oleh pengguna telah berpindah dari "berbasis percakapan" ke "berbasis alur". Oleh karena itu, satuan nilai efektivitas AI juga berubah dari "harga per token" menjadi "harga per tugas".

Hal ini menyebabkan beberapa model memiliki token yang murah, tetapi karena kinerja modelnya buruk, sering gagal dalam proses tugas atau hasil tugas tidak memenuhi standar, sehingga harga agent-nya tidak murah.

Misalnya, tugas Coding pada timeframe 8 jam, jika sekali terjadi kode rusak, seluruh alur kerja mungkin harus diulang dari awal. Hematnya harga token per unit tidak bisa mengganti waktu yang terbuang.

Narasi nilai terbaik untuk AI Tiongkok sedang meningkat.

Sebelumnya dibahas "memberikan jawaban dengan tingkat kualitas yang sama, saya lebih murah". Sekarang dibahas "untuk tugas yang sama kompleksnya, saya dapat menyelesaikannya dengan biaya lebih rendah".

Infrastruktur open source juga menjadi parit pertahanan baru untuk AI di Tiongkok.

Seperti yang disebutkan sebelumnya, SGLang begitu pula. Kemampuan teknis AI Tiongkok mulai menyebar ke komunitas hulu.

Nilai peristiwa ini tidak hanya terletak pada perbaikan bug oleh Zhipu, tetapi pada fakta bahwa perusahaan AI Tiongkok sedang mengubah masalah high concurrency, konteks panjang, dan pemanggilan agent dalam bisnis nyata menjadi kemampuan infrastruktur publik.

Seperti yang telah disebutkan sebelumnya, ketika sebuah perbaikan masuk ke kerangka open-source seperti SGLang, ia tidak lagi hanya melayani model milik Zhipu sendiri. Semua tim yang menggunakan kerangka ini untuk men-deploy model besar berkesempatan mendapatkan cache yang lebih stabil, biaya inferensi yang lebih rendah, dan pengalaman agent yang lebih baik.

Kemampuan model bisa dikejar, harga bisa ditekan, tetapi infrastruktur yang sudah masuk ke ekosistem open source akan menjadi standar, antarmuka, dan kebiasaan pengembangan.

Siapa yang lebih dulu menuliskan pengalaman teknisnya ke dalam sistem dasar ini, akan lebih mudah mempertahankan posisinya dalam ledakan aplikasi AI berikutnya.

03

Kembali ke pasar modal.

Saham-saham terkait model AI besar naik secara serentak, apakah modal bersedia memberi penilaian ulang kepada perusahaan AI? Apa sebenarnya yang dibeli pasar?

Jawabannya adalah, pasar modal sedang membayar untuk narasi bahwa "perusahaan AI Tiongkok dapat menghasilkan kecerdasan yang mendekati level teratas dengan biaya inferensi yang lebih rendah".

Masih menggunakan data OpenRouter.

Pangsa konsumsi token perusahaan AI terkemuka Tiongkok meningkat pesat dari 5% pada April 2025 menjadi 32% pada Maret 2026. Pangsa model terkemuka Amerika Serikat turun drastis dari 58% menjadi 19%.

Penggunaan token MiniMax, Zhipu, dan Alibaba meningkat 4-6 kali lipat pada Februari-Maret 2026 dibandingkan Desember tahun lalu.

Selain pemanggilan token, AI Tiongkok juga sedang membentuk logika pertumbuhan yang sama sekali berbeda dari raksasa luar negeri.

Model unggulan luar negeri menjual "premium kemampuan".

Semakin kuat kemampuan model, semakin mahal biaya panggilan tunggal, dan pengguna membayar untuk kecerdasan terkuat. Claude, GPT-5, dan Gemini semua bergerak ke arah ini.

AI Tiongkok menjual "rekayasa".

Kemampuan model mendekati model terkemuka, tetapi dengan harga, latensi, dan ambang pemanggilan yang lebih rendah, sehingga lebih sesuai dengan kebutuhan sebagian besar skenario frekuensi tinggi.

Laporan Morgan Stanley menyebutkan bahwa harga input model Tiongkok sekitar 0,3 dolar AS per juta token, sementara harga produk serupa di luar negeri sekitar 5 dolar AS. Ada selisih beberapa kali lipat di antara keduanya.

Ketika AI berubah dari alat percobaan menjadi alat produktivitas, nilai harga akan langsung menentukan frekuensi pemanggilan.

Semakin murah modelnya, semakin berani perusahaan menyerahkan lebih banyak tugas layanan pelanggan, kode, pemasaran, dan analisis data kepadanya. Semakin banyak tugas yang dijalankan, semakin besar konsumsi token, sehingga platform semakin mampu mendistribusikan biaya infrastruktur.

MiniMax

Saya percaya di tahap ini, kemungkinan besar akan terbentuk sebuah roda pendorong.

Putaran pertama, menarik pengembang dan perusahaan dengan harga API yang lebih rendah dan kemampuan yang lebih dekat dengan garis depan.

Putaran kedua, pemanggilan yang lebih tinggi akan membawa lebih banyak skenario nyata, mendorong model dan sistem inferensi untuk terus dioptimalkan.

Putaran ketiga, yang dibahas dalam blog teknis Zhipu, yaitu menggunakan optimasi teknik untuk menurunkan biaya per token dan per tugas, sehingga produsen mampu terus menurunkan harga, meningkatkan volume, atau menaikkan harga di skenario bernilai tinggi.

Putaran keempat, ketika konsumsi token menjadi arus baru di era AI, siapa yang dapat menanggung lebih banyak token dengan biaya lebih rendah, ia akan lebih dekat menjadi perusahaan platform di tahap berikutnya.

Jika hanya ada penurunan harga model, pasar akan khawatir ini adalah subsidi dan perang harga, yang semakin menghabiskan uang, dan suatu saat ada yang dompetnya tidak mampu menahan beban.

Selain itu, perang harga tidak dapat mendukung valuasi tinggi.

Namun, jika penurunan harga didorong oleh peningkatan throughput, pemanfaatan ulang cache, penurunan tingkat anomali, dan peningkatan efisiensi penjadwalan, maka harga rendah bukanlah pengorbanan keuntungan demi pertumbuhan, melainkan ruang biaya yang dilepaskan oleh kemampuan teknik.

Hasil dari perang harga dan optimasi teknis ini, meskipun keduanya membuat model menjadi lebih murah dan tampak serupa dalam laporan keuangan, sangat berbeda dalam model penilaian.

Yang pertama adalah subsidi, pasar akan memberikan diskon. Yang kedua adalah hambatan teknis, pasar akan memberikan premi.

Akhirnya bisa disimpulkan menjadi sebuah penilaian.

Dulu, valuasi perusahaan AI dilihat dari batas kemampuan model, dan siapa yang lebih dekat ke AGI. Pada saat itu, pasar membayar untuk “kecerdasan terkuat”, dan definisi kecerdasan terkuat semakin kabur, sementara biaya setiap panggilan semakin mahal.

Di era agen sekarang, valuasi masih harus melihat batas bawah biaya. Lihat siapa yang bisa mengirimkan solusi cerdas secara stabil, murah, dan berskala besar.

For those seeking the most advanced "intelligence," this may not be what Chinese AI excels at.

Namun AI Tiongkok paling mungkin menjadikan kata "cerdas" sebagai infrastruktur yang terjangkau oleh semua orang dan perusahaan.

Sementara pasar hanya bersedia membayar perusahaan yang mampu menjelaskan logika mereka dengan jelas.

Artikel ini berasal dari akun WeChat "Zimu Bang" (ID: wujicaijing), penulis: Miao Zheng