Saham Zhipu AI Melonjak 26% Setelah Meluncurkan API 400 Token/detik

Teks | AIDeepDive

Hari ini, Zhipu (02513.HK), "perusahaan pertama di dunia untuk model besar," kembali melonjak tajam.

Kenaikan intraday sempat melewati 30%. Penutupan pada 1282 dolar Hong Kong, kenaikan sepanjang hari melebihi 26%, dengan kapitalisasi pasar mencapai 571,57 miliar dolar Hong Kong, sekali lagi mencatat rekor tertinggi baru.

Model besar

Yang memicu kenaikan ini adalah indikator teknis spesifik: 400 tokens/s.

Pada 22 Mei, Zhipu secara resmi membuka API GLM-5.1 High-Speed untuk pelanggan perusahaan, dengan parameter inti terpenting hanya satu: kecepatan output model mencapai 400 token per detik, memecahkan batas kecepatan API pabrikan model besar global.

Saya awalnya mengira ini hanyalah upaya publisitas lagi dari model besar buatan domestik, tetapi setelah memeriksa detail teknisnya, saya akhirnya memahami logika di balik pasar modal.

Apa artinya 400 token/detik?

Model dapat menghasilkan sekitar 200 karakter Han per detik, setara dengan produksi intensif seorang penulis profesional dalam satu menit, yang dipercepat menjadi satu detik.

Jumlah teks yang ditulis oleh seorang kreator selama beberapa hari berturut-turut, GLM-5.1 versi cepat dapat menyelesaikannya dalam 1 menit; tugas重构 sistem yang memakan waktu 3 hari bagi seorang insinyur, dapat diselesaikan dalam waktu minum secangkir kopi.

01 Kecepatan, lebih penting dari yang kamu kira

Kecepatan, sejak dulu merupakan dimensi yang paling sering diabaikan dalam persaingan model AI.

Dalam tiga tahun terakhir, perlombaan senjata model besar berfokus pada dua jalur: ukuran parameter (model lebih besar dan lebih cerdas) dan perang harga (Token lebih murah dan lebih terjangkau). "Kecepatan" tidak pernah menjadi tokoh utama.

Ini karena, kecepatan masa lalu biasanya dicapai dengan memperkecil parameter model. Untuk mempercepat, diperlukan model yang lebih kecil dan lebih ringkas, dengan harga berupa penurunan kemampuan.

Versi cepat GLM-5.1 memiliki makna bahwa, sambil mempertahankan kemampuan basis ukuran penuh kelas unggulan, kecepatannya ditingkatkan menjadi 400 token/detik.

Baik dari sudut pandang model domestik maupun secara internasional, "kemampuan unggulan" dan "latensi sangat rendah" pertama kalinya dicapai tanpa kompromi.

Model besar

Mengapa kecepatan sangat penting? Karena medan pertempuran utama AI sedang mengalami pergeseran mendasar.

Ketika AI memasuki era Agent dari ChatBot, pertanyaan dan jawaban sudah bukan lagi skenario utama AI, dan untuk menyelesaikan sebuah tugas, Agent seringkali memerlukan puluhan hingga ratusan panggilan mandiri oleh model: menulis kode, memanggil antarmuka, mencari informasi, memanggil alat...

Dalam mode kerja ini, latensi antar panggilan akan terakumulasi dan diperbesar tanpa ampun. Tugas yang memerlukan 50 siklus panggilan, jika setiap panggilan menghemat 1 detik, maka keseluruhan tugas akan selesai hampir 1 menit lebih cepat. Bagi asisten pemrograman AI, interaksi suara, dan sistem keputusan bisnis, selisih semacam ini bisa menentukan hidup atau mati.

Secara lebih mendalam, dalam anggaran waktu tetap, inferensi yang lebih cepat berarti model dapat menyelesaikan jalur inferensi yang lebih dalam dan lebih banyak putaran verifikasi mandiri. Kecepatan sedang berubah dari indikator sistem menjadi batas kecerdasan itu sendiri.

02 Seberapa sulit masalah kecepatan ini?

Sekarang, seberapa tinggi tingkat kecepatan di industri ini?

Di antara produsen terkemuka, GPT-4o dari OpenAI berada di sekitar 100–150 token/detik, seri Claude Sonnet dari Anthropic sekitar 80–120 token/detik, dan sebagian besar API model unggulan utama di dalam negeri berada di kisaran 50–100 token/detik. 400 token/detik kira-kira 3 hingga 5 kali rata-rata industri.

Yang lebih penting lagi, kesenjangan ini tidak dapat diatasi hanya dengan menambahkan lebih banyak daya komputasi.

Sebuah server yang dilengkapi dengan 8 GPU H200 secara teoretis dapat memindahkan hingga 38 TB data per detik. Untuk GLM-5.1, setiap generasi satu token hanya memerlukan pembacaan sekitar 42 GB parameter aktivasi; secara teoretis murni, hal ini seharusnya dapat mendekati 1000 token/detik.

Namun, sistem nyata sering kali hanya mampu menghasilkan puluhan token/detik.

Model besar

Ini adalah kesenjangan tingkat yang besar. GPU bukanlah tidak cukup cepat, tetapi sebagian besar waktu terbuang dalam menunggu, idle, dan penjadwalan yang tidak efektif.

ZhiPu kali ini secara bersamaan berinovasi pada tiga tingkat: mesin inferensi, strategi paralel, dan arsitektur jaringan, mencapai terobosan dalam kecepatan akhir.

Model besar

03 Tiga lapisan teknologi ditumpuk, mendekati batas fisik perangkat keras

Model besar sebelumnya berjalan seperti ini, model besar dipecah menjadi berbagai operator independen, setiap operator memulai satu kali inti komputasi (kernel), setelah selesai menghitung, ia berhenti dan menunggu sinkronisasi, lalu memulai operator berikutnya.

Pada tahap pelatihan, setiap perhitungan memakan waktu beberapa detik hingga beberapa menit, sehingga overhead startup dan penantian dapat diabaikan. Namun, saat inferensi, setiap generasi satu token, langkah kunci tertentu mungkin hanya membutuhkan beberapa puluh mikrodetik, sehingga overhead startup dan penantian menjadi relatif tidak dapat diabaikan.

Gagasan inti TileRT: mengompilasi seluruh model menjadi mesin yang berjalan terus-menerus, dijalankan sekali, tidak pernah berhenti.

TileRT secara statis membentangkan seluruh logika komputasi model menjadi satu aliran berurutan selama tahap kompilasi kode, sehingga selama runtime GPU selalu beroperasi pada kecepatan tinggi, dengan komputasi, pemindahan data, dan komunikasi berjalan secara paralel, sementara hasil sementara tetap disimpan di dalam cache GPU berkecepatan tinggi, tanpa perlu ditulis ulang ke memori GPU yang lambat dan dibaca kembali.

Model besar

Ada detail desain penting: spesialisasi Warp.

Untuk memahami Warp, pertama-tama Anda perlu memahami cara kerja GPU. Perbedaan utama antara GPU dan CPU adalah GPU memiliki ribuan unit komputasi yang relatif sederhana di dalamnya, yang dikelompokkan dalam kelompok-kelompok berisi 32 unit, dan setiap kelompok ini disebut Warp.

32 unit dalam Warp yang sama harus selalu bergerak secara sinkron dan menjalankan instruksi yang sama, seperti satu regu tentara, di mana komandan memerintahkan semua orang untuk melakukan gerakan yang sama secara bersamaan.

Dalam kerangka tradisional, semua Warp menjalankan urutan instruksi yang sama; TileRT memungkinkan kelompok Warp berbeda untuk menangani tugas berbeda: sebagian secara khusus bertanggung jawab untuk memindahkan data berikutnya lebih awal, sebagian secara khusus bertanggung jawab untuk perhitungan matematis, dan sebagian lagi secara khusus bertanggung jawab untuk berkomunikasi dengan GPU lain. Tiga kelompok bekerja secara bersamaan, bekerja secara berurutan, dan tidak saling menunggu.

Seperti perubahan dari "seorang pekerja mengangkut batu bata, membangun dinding, dan memeriksa secara berurutan", menjadi "kelompok mengangkut batu bata, kelompok membangun dinding, dan kelompok pemeriksaan bekerja secara bersamaan".

Efisiensi dalam satu kartu telah diselesaikan, tetapi paralelisasi multi-kartu membawa tantangan baru.

Praktik industri standar adalah tensor parallel: membagi matriks bobot model menjadi beberapa bagian, setiap GPU bertanggung jawab atas satu bagian, dan hasilnya dijumlahkan melalui koneksi berkecepatan tinggi (NVLink) setelah masing-masing selesai menghitung.

Solusi ini sangat efektif untuk komputasi padat teratur seperti perkalian matriks, dan merupakan standar multi-GPU untuk hampir semua kerangka kerja inferensi model besar saat ini.

GLM-5.1 menggunakan **MLA (Multi-head Latent Attention), sebuah mekanisme perhatian yang diusulkan oleh DeepSeek.

Mekanisme perhatian tradisional memerlukan penyimpanan lengkap sejumlah besar data sementara yang dihitung pada setiap langkah (KV Cache) untuk digunakan nanti, yang sangat memakan memori GPU; pendekatan MLA adalah terlebih dahulu mengompres data sementara ini menjadi sebuah "vektor laten" yang ringkas, lalu mengekspansi dan memulihkannya saat dibutuhkan, sehingga kebutuhan memori GPU berkurang secara signifikan dan efisiensi inferensi meningkat.

Namun, dalam proses perhitungan MLA, ada tahap khusus: perlu membuat indeks jarang dari sejumlah besar informasi historis: mirip dengan cepat menemukan beberapa buku paling relevan di perpustakaan besar, lalu membaca secara mendalam buku-buku tersebut.

Langkah "mencari buku" bergantung pada informasi global dan tidak cocok untuk dibagi secara paralel di beberapa kartu; "membaca secara mendalam" adalah langkah yang cocok untuk komputasi padat secara paralel di beberapa kartu. Jika dipaksakan agar semua 8 GPU terlibat dalam "mencari buku", sebagian besar waktu akan terbuang pada sinkronisasi dan komunikasi antar GPU.

Solusi TileRT adalah menjalankan GPU secara heterogen: GPU 0 secara khusus bertindak sebagai "petugas perpustakaan", bertanggung jawab atas indeks jarang dan keputusan routing; GPU 1–7 bertindak sebagai "analisis pembaca mendalam", bertanggung jawab atas perhitungan perhatian padat dan operasi matriks. Kedua jenis pekerja ini masing-masing menggunakan strategi paralel yang paling cocok untuk mereka guna bekerja sama menyelesaikan seluruh lapisan komputasi.

Model besar

Selanjutnya, TileRT secara langsung menanamkan operasi komunikasi antar GPU ke dalam pipeline eksekusi, bukan lagi sebagai langkah terpisah. Dari luar, seluruh sistem 8 GPU hanya memerlukan satu kali peluncuran kernel untuk menyelesaikan satu lapisan perhitungan perhatian, dengan komunikasi dan perhitungan internal diselesaikan secara mulus di dalam pipeline berkelanjutan.

Dua lapisan di atas menyelesaikan masalah dalam lingkup mesin tunggal. Ketika klaster diperluas menjadi ratusan hingga ribuan GPU, transfer data di antara GPU itu sendiri menjadi batas baru.

Praktik industri standar adalah ROFT (Rail-Optimized Fat-Tree), solusi yang direkomendasikan resmi oleh NVIDIA, dan standar mutlak di industri.

Strukturnya berbentuk pohon: server terlebih dahulu terhubung ke switch Leaf bawah (lapisan akses, langsung menghadap server), kemudian Leaf terhubung ke atas ke switch Spine (lapisan tulang punggung, yang bertanggung jawab menghubungkan berbagai Leaf, seperti persimpangan jalan raya). Data yang ditransmisikan antara dua GPU harus "naik terlebih dahulu ke Spine, lalu turun ke Leaf tujuan", melewati setidaknya 3 lompatan.

Untuk menghindari konsentrasi lalu lintas pada beberapa jalur saja, arsitektur ini bergantung pada algoritma ECMP untuk mendistribusikan data di antara beberapa jalur, dan berfungsi dengan baik dengan asumsi lalu lintas internet "terdistribusi secara statistik merata".

Namun, lalu lintas pada skenario inferensi sama sekali tidak merata. Panjang konteks antar permintaan dapat berbeda hingga puluhan kali, arah transmisi KV Cache antar GPU hampir acak, beberapa switch Leaf tertentu secara periodik menjadi titik panas, memicu mekanisme backpressure yang menyebarkan kemacetan dari lokal ke seluruh jalur. Kemacetan ini bukanlah masalah yang dapat diatasi dengan penyesuaian parameter protokol, melainkan produk dari struktur topologi itu sendiri.

Model besar

Terobosan mendasar ZCube: membuat kemacetan semacam ini secara fisik tidak mungkin terjadi pada tingkat arsitektur.

Desain inti terdiri dari dua langkah:

Langkah pertama, nonaktifkan lapisan tulang belakang Spine, seluruh jaringan menjadi datar. Kelompokkan semua switch Leaf berdasarkan nomor ganjil dan genap, lalu hubungkan kedua kelompok secara penuh, sehingga setiap switch ganjil terhubung ke semua switch genap, dan sebaliknya. Setiap dua GPU dapat saling mencapai melalui paling banyak dua switch, mengurangi jumlah lompatan dari 3 menjadi 2.

Model besar

Langkah kedua, sekaligus bagian paling canggih: setiap kartu jaringan GPU terhubung ke dua kelompok switch dengan dua cara yang sama sekali berbeda. Topologi khusus ini menghasilkan sifat matematis penting: di seluruh jaringan, antara setiap dua GPU ada tepat satu jalur optimal.

Model besar

Jalur tunggal secara langsung menghilangkan akar kemacetan. Arsitektur tradisional rentan terhadap hot spot justru karena ada banyak jalur yang tersedia; algoritma load balancing yang salah memilih akan menyebabkan konsentrasi lalu lintas. ZCube secara desain menghilangkan "pilihan" itu sendiri: tidak perlu penyeimbangan beban, karena sama sekali tidak ada jalan bercabang.

04 Dalam kondisi perangkat keras yang sama, bagaimana perhitungannya?

Setelah智谱 meningkatkan klaster produksi GLM-5.1 dari ROFT tradisional ke ZCube, mereka mendapatkan tiga angka:

Secara ringkas, dengan investasi GPU yang sama, klaster dapat melayani lebih banyak pengguna; dengan persyaratan pengalaman pengguna yang sama, klaster dapat membeli sepertiga lebih sedikit perangkat jaringan. Efisiensi dan biaya meningkat secara sekaligus.

Model besar

Secara khusus, peningkatan throughput 15% setara dengan mendapatkan 15% daya komputasi tambahan secara gratis. Dengan jumlah GPU tetap, peningkatan throughput sebesar 15% setara dengan penurunan biaya perangkat keras per token sekitar 13%, atau dengan biaya yang sama, Anda dapat melayani 15% lebih banyak pengguna.

Jika sebuah klaster memiliki 1.000 GPU, peningkatan ini setara dengan penambahan kapasitas 150 kartu secara tiba-tiba, berdasarkan harga pasar kartu inferensi high-end saat ini, ini adalah nilai komputasi dalam skala ratusan juta yuan.

Latensi ekor turun 40,6%, yang menyelesaikan masalah stabilitas, bukan kecepatan rata-rata. Untuk tugas Agent yang memerlukan 50 putaran panggilan, jika latensi ekor berkurang 1 detik setiap kali, waktu penyelesaian terburuk keseluruhan tugas berkurang hampir 1 menit.

Biaya berkurang sepertiga, merupakan penghematan langsung di tingkat pembangunan. ZCube menghilangkan lapisan Spine, sehingga jumlah switch dan modul optik yang dibutuhkan dalam skala klaster yang sama berkurang langsung sepertiga. Menurut perhitungan ZhiPu, dalam klaster berskala sepuluh ribu GPU, hanya dengan langkah ini saja dapat menghemat sekitar 210 juta hingga 640 juta yuan.

Dalam jangka panjang, seiring dengan pertumbuhan eksponensial skala klaster, kompleksitas komunikasi antar GPU meningkat beberapa kali lipat, sehingga probabilitas dan dampak kemacetan juga membesar secara sejajar. Ini berarti nilai inovasi arsitektural seperti ZCube akan semakin nyata seiring dengan perluasan berkelanjutan klaster inferensi. Manfaat klaster skala sepuluh ribu GPU besok mungkin tidak hanya 15% seperti hari ini.

05 Penutup

Setelah membaca laporan teknis Zhipu, saya bertanya-tanya, apakah ini akan membawa badai ke industri, seperti yang dilakukan DeepSeek?

Pikirkan lebih dalam, dampak keduanya tampaknya berbeda. Ketika DeepSeek muncul, ia membuktikan bahwa kecerdasan yang sama dapat dicapai dengan kekuatan komputasi jauh lebih sedikit. Pasar semakin khawatir bahwa "kebutuhan akan GPU berkurang", sehingga kapitalisasi pasar NVIDIA anjlok hampir 600 miliar dolar AS pada hari itu.

Tetapi hari ini, bukti teknis Zhipu menunjukkan: dengan daya komputasi yang sama, lebih banyak dapat dihasilkan. Ini sedang merekonstruksi "infrastruktur lain di luar GPU seharusnya seperti apa".

Dalam jangka pendek, NVIDIA tidak akan terpengaruh, tetapi dalam jangka panjang, parit perlindungan yang terdiri dari GPU + koneksi NVLink + jaringan InfiniBand + ekosistem perangkat lunak CUDA sedang digali, terutama InfiniBand yang dibeli NVIDIA seharga $6,9 miliar pada tahun 2019 dari Mellanox, di mana premi jaringan NVIDIA akan terkikis secara signifikan.

Selain itu, ZCube menghilangkan lapisan Spine, tetapi justru menuntut kepadatan port yang lebih tinggi pada switch Leaf. Pihak yang diuntungkan adalah produsen yang mampu memproduksi switch Leaf dengan kepadatan tinggi dan banyak port (Ruijie, Arista, chip switch Broadcom), sementara pihak yang dirugikan adalah produsen yang sebelumnya mengandalkan switch Spine kelas atas untuk mendapatkan premi.

Pada tahun 2025, Celestica dan NVIDIA secara bersama-sama menguasai sekitar 50% pangsa pasar switch jaringan backend AI, dan struktur ini akan mengalami perubahan setelah penyebaran paradigma ZCube.

Modul cahaya adalah arah paling langsung yang diuntungkan oleh perubahan rantai pasok ini, dengan logika yang sangat jelas. Bagi produsen modul cahaya domestik (Innolight, Tech-Fu Communications, dll.), ini merupakan利好 struktural: tidak hanya volume meningkat, tetapi permintaan terhadap modul cahaya kecepatan tinggi (800G, 1.6T) dalam paradigma ZCube juga lebih terkonsentrasi dan mendesak dibandingkan arsitektur tradisional.

Baik arsitektur TileRT maupun ZCube, ini adalah mesin inferensi murni perangkat lunak yang berjalan di GPU standar, tanpa bergantung pada fitur perangkat keras eksklusif NVIDIA, dan secara teori dapat dipindahkan ke chip domestik seperti Huawei Ascend. Jika arah ini berhasil, akan secara signifikan menurunkan ambang batas perangkat lunak untuk chip AI domestik dalam skenario inferensi.

Ini mungkin merupakan makna yang lebih besar di balik inovasi teknologi ini.