Saham Zhipu AI melonjak 26% selepas melancarkan API 400 token/s

Teks | AIDeepDive

Hari ini, Zhipu (02513.HK), "syarikat pertama di dunia dalam model besar," mengalami kenaikan tajam sekali lagi.

Kenaikan semasa sesi perniagaan pernah melebihi 30%. Tutup pada HK$1,282, dengan kenaikan sepanjang hari melebihi 26%, dan kapitalisasi pasaran mencapai HK$571.57 bilion, sekali lagi mencatat rekod tertinggi baru.

Model besar

Yang memicu kenaikan ini ialah satu indikator teknikal spesifik: 400 tokens/s.

Pada 22 Mei, Zhipu secara rasmi membuka API GLM-5.1 High Speed (GLM-5.1-highspeed) kepada pelanggan korporat, dengan parameter utama terpenting hanya satu: kelajuan output model mencapai 400 token per saat, memecah had kelajuan API bagi pembuat model besar global.

Saya awalnya menganggap ini sekadar pemasaran oleh model besar buatan domestik, tetapi setelah memeriksa butiran teknikalnya, saya akhirnya memahami logika di belakang pasar modal.

Apakah maksud 400 token/s?

Model boleh menghasilkan sekitar 200 aksara Cina setiap saat, setara dengan output intensif seorang penulis profesional dalam satu minit, dipadatkan ke dalam satu saat.

Jumlah teks yang ditulis oleh seorang kreator selepas berjam-jam bekerja tanpa henti, GLM-5.1 versi laju dapat menghantar semuanya dalam 1 minit; tugas reka semula sistem yang memakan masa 3 hari seorang jurutera, ia dapat menyelesaikannya dalam masa minum secawan kopi.

01 Kelajuan, lebih penting daripada yang anda fikir

Kelajuan, selalu menjadi dimensi yang paling diabaikan dalam persaingan model AI.

Dalam tiga tahun terakhir, perlumbaan senjata model besar berfokus pada dua landasan: ukuran parameter (model yang lebih besar dan lebih bijak) dan perang harga (Token yang lebih murah dan lebih boleh diakses). "Kelajuan" tidak pernah menjadi tokoh utama.

Ini kerana, “kelajuan” masa lalu biasanya dicapai dengan mengurangkan parameter model. Untuk mempercepatkan, model yang lebih kecil dan lebih ringkas perlu digunakan, dengan harga pengurangan keupayaan.

Versi pantas GLM-5.1 kali ini bermakna kerana ia mengekalkan keupayaan pangkalan penuh kelas unggul sambil mendorong kelajuan hingga 400 token/s.

Baik dari segi model tempatan mahupun dari perspektif antarabangsa, "keupayaan unggul" dan "latensi rendah ekstrem" pertama kali dicapai tanpa kompromi.

Model besar

Mengapa kelajuan sangat penting? Kerana medan utama AI sedang mengalami peralihan mendasar.

Apabila AI memasuki era Agent daripada ChatBot, soal jawab bukan lagi skenario utama AI, dan untuk menyelesaikan satu tugas, Agent sering memerlukan model melakukan puluhan hingga ratusan panggilan diri: menulis kod, memanggil antaramuka, mencari maklumat, memanggil alat...

Dalam mod kerja ini, latensi antara setiap panggilan akan ditambah dan diperbesar tanpa belas kasihan. Tugasan yang memerlukan 50 panggilan, jika setiap panggilan menjimatkan 1 saat, keseluruhan tugasan akan lebih cepat hampir 1 minit. Bagi pembantu pengaturcaraan AI, interaksi suara, dan sistem pengambilan keputusan perniagaan, perbezaan ini boleh menentukan hidup atau mati.

Dari sudut yang lebih mendalam, inferensi yang lebih pantas dalam anggaran masa tetap bermakna model boleh menyelesaikan laluan inferensi yang lebih dalam dan lebih banyak putaran pengesahan diri. Kelajuan, sedang berubah daripada indikator sistem menjadi had kecerdasan itu sendiri.

02 Seberapa sukar perkara kelajuan ini?

Apakah tahap kelajuan dalam industri sekarang?

Di kalangan pengeluar terkemuka, GPT-4o dari OpenAI berada pada kira-kira 100–150 token/s, siri Claude Sonnet dari Anthropic berada pada kira-kira 80–120 token/s, dan kebanyakan API model unggulan utama di dalam negara berada dalam julat 50–100 token/s. 400 token/s adalah sekitar 3 hingga 5 kali ganda purata industri.

Lebih penting lagi, jurang ini tidak boleh diisi semula hanya dengan meningkatkan kuasa pengiraan.

Sebuah pelayan yang dilengkapi dengan 8 kad H200 secara teori mampu memindahkan sehingga 38TB data setiap saat. Bagi GLM-5.1, setiap kali menghasilkan satu token hanya memerlukan pembacaan sekitar 42GB parameter aktivasi; secara teori tulen, ia sepatutnya mendekati 1000 token/s.

Namun, sistem sebenar sering kali hanya mampu menjalankan puluhan tokens/s.

Model besar

Ini adalah jurang yang seukuran. GPU bukanlah tidak cukup pantas, tetapi sebahagian besar masa terbuang dalam menunggu, berhenti tanpa tujuan, dan penjadualan yang tidak efisien.

ZhiPu kali ini berinovasi secara serentak pada tiga aras—mesin inferens, strategi selari, dan arsitek jaringan—mencapai lompatan dalam kelajuan akhir.

Model besar

03 Tiga lapisan teknologi bertindih, mendekati had fizikal peranti keras

Model besar sebenarnya beroperasi seperti ini: model besar dibahagikan kepada pelbagai operator yang berasingan, setiap operator akan memulakan satu inti pengiraan (kernel) secara berasingan, selepas pengiraan selesai, ia akan berhenti dan menunggu secara serentak sebelum memulakan yang seterusnya.

Pada peringkat latihan, setiap pengiraan mengambil beberapa saat hingga beberapa minit, jadi overhead permulaan dan tunggu boleh diabaikan. Tetapi semasa inferens, setiap penghasilan satu token, langkah penting tertentu mungkin hanya memerlukan beberapa puluh mikro saat, di mana overhead permulaan dan tunggu menjadi相对 tidak boleh diabaikan.

Gagasan utama TileRT: mengompilasi keseluruhan model menjadi enjin yang berjalan berterusan, dihidupkan sekali sahaja, tidak pernah berhenti.

TileRT secara statik membentangkan seluruh logik pengiraan model menjadi satu saluran berterusan semasa peringkat kompilasi kod, memastikan GPU sentiasa beroperasi pada kelajuan tinggi semasa runtime, dengan pengiraan, pemindahan data, dan komunikasi berjalan secara selari, sambil menyimpan keputusan sementara sebanyak mungkin dalam cache laju GPU dan mengelakkan penulisan semula berulang ke memori video yang perlahan serta pembacaan semula.

Model besar

Terdapat butiran reka bentuk penting: Spesialisasi Warp.

Untuk memahami Warp, anda perlu memahami cara kerja GPU. Perbezaan utama antara GPU dan CPU ialah ia mempunyai ribuan unit pengiraan yang相对 ringan di dalamnya, yang diikat bersama dalam kumpulan 32, dan kumpulan ini dipanggil Warp.

32 unit dalam Warp yang sama mesti bertindak serentak dan menjalankan arahan yang sama, seperti sebuah pasukan dalam tentera, di mana komander memerintahkan semua orang melakukan tindakan yang sama secara serentak.

Dalam kerangka tradisional, semua Warp menjalani urutan arahan yang sama; TileRT membolehkan kumpulan Warp yang berbeza mengambil tanggungjawab yang berbeza: sebahagian khusus bertanggungjawab untuk mengangkut data seterusnya lebih awal, sebahagian khusus bertanggungjawab untuk pengiraan matematik, dan sebahagian khusus bertanggungjawab untuk berkomunikasi dengan GPU lain. Tiga kumpulan bekerja serentak, bekerjasama secara berperingkat, tanpa menunggu satu sama lain.

Seperti perubahan daripada "seorang pekerja membawa batu bata, membina dinding, dan mengesahkan secara berurutan" kepada "kumpulan membawa batu bata, kumpulan membina dinding, dan kumpulan mengesahkan beroperasi serentak."

Kecekapan dalam satu kad telah diselesaikan, tetapi paralelisasi banyak kad membawa cabaran baharu.

Amalan industri biasa ialah paralel tensor (Tensor Parallel): memecahkan matriks bobot model kepada beberapa bahagian, setiap GPU bertanggungjawab atas satu bahagian, dan hasilnya dikumpulkan melalui sambungan berkelajuan tinggi (NVLink) selepas pengiraan selesai.

Rancangan ini sangat berkesan untuk pengiraan padat yang teratur seperti pendaraban matriks, dan merupakan kaedah pelbagai kad piawai untuk semua kerangka inferens model besar semasa ini.

GLM-5.1 menggunakan **MLA (Multi-head Latent Attention), sebuah mekanisme perhatian yang dicadangkan oleh DeepSeek.

Mekanisme perhatian tradisional memerlukan penyimpanan penuh semua data sementara yang dihitung pada setiap langkah (KV Cache) untuk kegunaan masa depan, yang sangat menghabiskan memori GPU; pendekatan MLA adalah dengan mampatkan data sementara ini menjadi satu "vektor laten" yang padat, kemudian membentangkannya semula apabila diperlukan, sehingga keperluan memori GPU berkurang secara besar-besaran dan kecekapan inferens meningkat.

Namun, dalam proses pengiraan MLA, terdapat satu peringkat khas: perlu membuat indeks jarang daripada sejumlah besar maklumat sejarah: serupa dengan mencari dengan pantas beberapa buku yang paling berkaitan di dalam perpustakaan yang besar, kemudian membaca secara mendalam buku-buku tersebut.

Langkah "cari buku" bergantung pada maklumat global dan tidak sesuai untuk dibahagikan secara serentak ke pelbagai kad; "baca secara mendalam" adalah komputasi padat yang sesuai untuk paralelisme pelbagai kad. Jika semua 8 GPU dipaksa terlibat dalam "cari buku", banyak masa akan terbuang dalam komunikasi dan penyegerakan antara GPU.

Penyelesaian TileRT adalah menjalankan GPU secara heterogen: GPU 0 secara khusus bertindak sebagai "pencari perpustakaan", bertanggung jawab atas indeks jarang dan keputusan routing; GPU 1–7 bertindak sebagai "analisis pembaca mendalam", bertanggung jawab atas pengiraan perhatian padat dan operasi matriks. Kedua jenis pekerja ini menggunakan strategi paralel yang paling sesuai dengan masing-masing untuk bekerja sama menyelesaikan keseluruhan lapisan pengiraan.

Model besar

Seterusnya, TileRT juga mengintegrasikan secara langsung operasi komunikasi antara GPU ke dalam aliran pelaksanaan, bukan lagi sebagai langkah berasingan. Dari sudut pandang luar, keseluruhan sistem 8 GPU hanya memerlukan satu pelancaran kernel untuk menyelesaikan satu lapisan pengiraan perhatian, dengan komunikasi dan pengiraan dalaman selesai secara mulus di dalam aliran berterusan.

Dua lapisan di atas menyelesaikan masalah dalam lingkungan mesin tunggal. Apabila kumpulan diperluas kepada ratusan hingga ribuan GPU, penghantaran data antara GPU itu sendiri menjadi batas baru.

Amalan industri ialah ROFT (Rail-Optimized Fat-Tree), iaitu penyelesaian yang disyorkan oleh NVIDIA dan menjadi piawai mutlak dalam industri.

Strukturnya adalah pohon: pelayan terlebih dahulu menyambung ke switch Leaf bawah (lapisan akses, langsung menghadap pelayan), kemudian Leaf menyambung ke atas ke switch Spine (lapisan tulang belakang, bertanggung jawab menghubungkan berbagai Leaf, seperti persimpangan jalan raya). Data yang ditransmisikan antara dua GPU harus "naik terlebih dahulu ke Spine, lalu turun ke Leaf tujuan", melewati sekurang-kurangnya 3 lompatan.

Untuk mengelakkan trafik terpusat pada beberapa saluran sahaja, arsitektur ini bergantung kepada algoritma ECMP untuk membahagikan data di antara beberapa laluan, dan berfungsi dengan baik di bawah anggapan trafik internet yang "seragam secara statistik".

Namun, trafik dalam senario inferens tidak seragam sama sekali. Panjang konteks antara permintaan yang berbeza boleh berbeza sehingga puluhan kali ganda, arah penghantaran KV Cache antara GPU hampir rawak, dan beberapa suis Leaf tertentu menjadi titik panas secara berkala, memicu mekanisme backpressure yang menyebarkan kemacetan dari tempatan ke seluruh rantai. Kemacetan ini bukanlah sesuatu yang boleh diselesaikan dengan penyesuaian protokol, tetapi merupakan hasil daripada struktur topologi itu sendiri.

Model besar

Terobosan mendasar ZCube: menjadikan kemacetan semacam ini secara fizikal mustahil berlaku dari segi arsitektur.

Reka bentuk utama terdiri daripada dua langkah:

Langkah pertama, batalkan lapisan tulang belakang Spine, seluruh rangkaian menjadi rata. Kelompokkan semua switch daun mengikut nombor ganjil dan genap, dan sambungkan sepenuhnya antara kedua-dua kumpulan — setiap switch ganjil disambungkan ke semua switch genap, dan sebaliknya. Mana-mana dua GPU boleh berkomunikasi melalui paling banyak dua switch, mengurangkan jumlah lompatan dari 3 kepada 2.

Model besar

Langkah kedua, dan juga tempat yang paling canggih: setiap kad GPU disambungkan ke dua set suis dengan dua cara yang sangat berbeza. Topologi khas ini membawa sifat matematik penting: di antara mana-mana dua kad GPU dalam rangkaian, terdapat tepat satu laluan paling optimum.

Model besar

"Jalan tunggal" secara langsung menghilangkan punca kemacetan. Arsitektur tradisional mudah mengalami hot spot kerana terdapat banyak jalan yang boleh dipilih; algoritma penyeimbangan beban yang salah akan menyebabkan trafik terkumpul. ZCube menghilangkan "pilihan" itu sendiri dalam reka bentuknya: tidak perlu penyeimbangan, kerana tiada jalan bercabang.

04 Dalam keadaan peralatan yang sama, bagaimana pengiraan akaun?

Setelah智谱 meningkatkan kluster produksi GLM-5.1 dari ROFT tradisional ke ZCube, mereka mendapat tiga nombor:

Secara ringkas, dengan pengeluaran GPU yang sama, kluster boleh melayani lebih banyak pengguna; dengan keperluan pengalaman pengguna yang sama, kluster boleh membeli sepertiga kurang peralatan rangkaian. Kecekapan dan kos kedua-duanya diperbaiki.

Model besar

Secara khusus, peningkatan throughput 15% setara dengan mendapatkan 15% lebih banyak kekuatan pengiraan secara percuma. Dengan jumlah GPU yang tidak berubah, throughput yang lebih tinggi 15% bersamaan dengan penurunan kos peralatan purata sekitar 13% setiap token, atau dengan kata lain, dengan kos yang sama, anda boleh melayani 15% lebih banyak pengguna.

Jika sebuah kluster mempunyai 1000 GPU, peningkatan ini setara dengan penambahan kapasiti 150 kad secara serta-merta, berdasarkan harga pasaran kad inferens高端 semasa, ini adalah nilai pengiraan dalam lingkungan berjuta-juta ringgit.

Keterlambatan ekor menurun 40.6%, menyelesaikan kestabilan, bukan kelajuan purata. Tugas Agent yang memerlukan 50 pusingan panggilan, jika keterlambatan ekor berkurang 1 saat setiap kali, masa penyelesaian terburuk keseluruhan tugas dikurangkan hampir 1 minit.

Kos berkurang sepertiga, merupakan pengurangan langsung pada tahap pembinaan. ZCube telah menghapus lapisan Spine, mengurangkan jumlah switch dan modul optik yang diperlukan sebanyak sepertiga pada skala cluster yang sama. Menurut pengiraan ZhiPu, dalam cluster berskala sepuluh ribu GPU, hanya tindakan ini sahaja boleh menjimatkan kira-kira RM210 juta hingga RM640 juta.

Dalam jangka panjang, seiring dengan peningkatan eksponen dalam skala kluster, kompleksiti komunikasi antara GPU meningkat beberapa kali ganda, sementara kebarangkalian dan kesan kemacetan juga membesar secara serentak. Ini bermakna nilai inovasi peringkat arsitektur seperti ZCube akan muncul lebih cepat seiring dengan perluasan berterusan kluster inferens. Keuntungan kluster berskala sepuluh ribu GPU esok mungkin tidak hanya 15% seperti hari ini.

05 Ditulis di akhir

Setelah membaca laporan teknikal Zhipu, saya bertanya-tanya, akankah ini membawa badai ke industri seperti yang dilakukan DeepSeek?

Pertimbangkan dengan teliti, kesan kedua-duanya nampaknya berbeza dari segi yang berbeza. Semasa DeepSeek dilancarkan, ia membuktikan bahawa kecerdasan yang sama boleh dicapai dengan penggunaan kuasa pengiraan yang jauh lebih sedikit. Pasaran bimbang bahawa "keperluan GPU akan berkurang", sehingga nilai pasaran NVIDIA merosot sebanyak hampir US$600 bilion pada hari itu.

Tetapi bukti teknologi Zhipu hari ini: dengan kekuatan pengiraan yang sama, lebih banyak boleh dihasilkan. Ia sedang membina semula "bagaimana infrastruktur lain selain GPU seharusnya kelihatan".

Dalam jangka pendek, NVIDIA tidak akan terkesan, tetapi dalam jangka panjang, parit perlindungan yang terdiri daripada GPU + NVLink interkoneksi + rangkaian InfiniBand + ekosistem perisian CUDA sedang digali, terutamanya InfiniBand yang dibeli NVIDIA seharga US$6.9 bilion daripada Mellanox pada tahun 2019, premium di sisi rangkaian NVIDIA akan dihakis secara besar-besaran.

Selain itu, ZCube telah menghapus lapisan Spine, tetapi permintaan terhadap kepadatan port pada switch Leaf menjadi lebih tinggi. Pihak yang diuntungkan ialah pembuat switch Leaf dengan kepadatan tinggi dan port besar (Ruijie, Arista, chip switch Broadcom), manakala pihak yang dirugikan ialah pembuat yang bergantung terutama pada switch Spine kelas tinggi untuk mendapatkan premium.

Pada tahun 2025, Celestica dan NVIDIA secara bersama-sama menguasai sekitar 50% pasaran suis jaringan belakang AI, dan struktur ini akan menghadapi pengguguran semula selepas penyebaran paradigma ZCube.

Modul cahaya adalah arah yang paling langsung mendapat manfaat daripada perubahan rangkaian ini, dengan logik yang sangat jelas. Bagi pembuat modul cahaya di dalam negara (InnoLight, Tech-Fu Communications, dsb.), ini merupakan kebaikan struktural: bukan sahaja jumlahnya meningkat, tetapi permintaan terhadap modul cahaya berkelajuan tinggi (800G, 1.6T) di bawah paradigma ZCube juga lebih terkonsentrasi dan mendesak berbanding struktur tradisional.

Baik arsitektur TileRT mahupun ZCube, ini adalah enjin inferens perisian tulen yang berjalan di atas GPU piawai, tanpa bergantung pada ciri peranti eksklusif NVIDIA, dan secara teori boleh dipindahkan ke cip tempatan seperti Huawei Ascend. Sekiranya arah ini berjaya, ia akan secara signifikan mengurangkan rintangan perisian untuk cip AI tempatan dalam skenario inferens.

Ini mungkin merupakan makna yang lebih besar di sebalik inovasi teknologi ini.