Від | AIDeepDive
Сьогодні «перша компанія у світі з великою мовою» Zhipu (02513.HK) знову стрімко зросла.
Під час торгівель зростання досягло більше 30%. На закритті ціна склала 1282 гонконгських долари, загальний приріст за день перевищив 26%, а ринкова капіталізація досягла 571,57 мільярда гонконгських доларів, знову побивши рекорд.

Причиною цього стрибка став конкретний технічний індикатор: 400 tokens/s.
22 травня智谱 офіційно відкрила API GLM-5.1-highspeed для корпоративних клієнтів, і найважливішим параметром є лише один: швидкість виведення моделі до 400 токенів за секунду, що встановлює новий світовий рекорд швидкості API для великих моделей.
Спочатку я вважав, що це ще одна PR-кампанія китайської великої моделі, але, уважно вивчивши технічні деталі, я нарешті зрозумів логіку, що стоїть за ринками капіталу.
Що означає 400 токенів/с?
Модель може генерувати приблизно 200 китайських ієрогліфів за секунду, що дорівнює інтенсивному виводу професійного письменника за хвилину, стисненому до однієї секунди.
Обсяг тексту, який автор може написати, працюючи за комп’ютером кілька днів поспіль, GLM-5.1 Speed Edition здатна надати за одну хвилину; завдання з重构ування системи, яке інженер може виконувати три дні, вона здатна виконати за час, поки вип’є чашку кави.
01 Швидкість важливіша, ніж ти думаєш
Швидкість завжди була найбільш зневаженим аспектом у конкуренції між моделями ШІ.
За останні три роки змагання великих моделей зосереджувалося на двох напрямках: масштаб параметрів (моделі більші й розумніші) та цінова війна (токени дешевші й доступніші). «Швидкість» ніколи не була головною героїнею.
Це тому, що раніше «швидкість» зазвичай досягалася шляхом зменшення параметрів моделі. Щоб прискорити, потрібно було використовувати менші та більш стислі моделі, що призводило до зменшення їхніх можливостей.
Значення швидкої версії GLM-5.1 полягає в тому, що вона зберігає флагманські можливості повнорозмірної базової моделі, одночасно підвищуючи швидкість до 400 токенів/с.
Незалежно від китайських моделей чи міжнародного контексту, «флагманські можливості» та «максимально низька затримка» вперше досягнуті без компромісів.

Чому швидкість така важлива? Бо основна битва для ШІ перебуває на шляху фундаментальної зміни.
Коли ІІ від ChatBot переходить у епоху Agent, відповіді на запитання більше не є основним сценарієм ІІ; щоб Agent виконав завдання, моделі часто потрібно здійснити десятки або навіть сотні циклів самовикликів: писати код, викликати інтерфейси, шукати інформацію, використовувати інструменти…
У цьому режимі роботи затримка між кожним викликом невблаганно накопичується і посилюється. Завдання, яке вимагає 50 викликів, якщо кожен з них економить 1 секунду, буде виконано майже на хвилину швидше. Для AI-асистентів для програмування, голосових інтерфейсів та систем прийняття бізнес-рішень така різниця може бути життєво важливою.
З глибшої точки зору, швидший висновок у межах фіксованого часового бюджету означає, що модель може пройти глибші шляхи міркувань та здійснити більше раундів самоствердження. Швидкість перетворюється з системного показника на саму границю інтелекту.
02 Наскільки складно це — швидкість?
Яка зараз рівень швидкості в галузі?
Серед лідерів галузі, GPT-4o від OpenAI працює приблизно зі швидкістю 100–150 токенів/с, серія Claude Sonnet від Anthropic — 80–120 токенів/с, а основні флагманські моделі в Китаї зазвичай мають швидкість 50–100 токенів/с. 400 токенів/с — це приблизно у 3–5 разів більше, ніж середній показник галузі.
Ще важливіше, цю різницю не можна виправити лише за рахунок збільшення обчислювальних потужностей.
Сервер з вісімма графічними процесорами H200 теоретично може переміщувати до 38 ТБ даних за секунду. Для GLM-5.1 для генерації одного токена потрібно зчитати приблизно 42 ГБ активованих параметрів; чисто теоретично це дозволяє досягти майже 1000 токенів/с.
Але реальні системи часто можуть обробляти лише десятки токенів/с.

Це різниця на порядок. GPU не є недостатньо швидкими — велика кількість часу витрачається на очікування, простою та неефективне планування.
Ціпін на цей раз досягла прориву у кінцевій швидкості завдяки одночасному інноваційному підходу на трьох рівнях: рушій висновків, паралельні стратегії та мережева архітектура.

03 Три рівні технологій, що накладаються, наближаються до фізичних меж апаратного забезпечення
Великі моделі працюють саме так: велика модель розбивається на окремі оператори, кожен оператор запускає обчислювальне ядро (kernel) окремо, після завершення обчислень зупиняється, синхронізується та очікує, поки не буде запущено наступний.
На етапі навчання кожен розрахунок триває від кількох секунд до кількох хвилин, тому накладні витрати на запуск і очікування можна знехтувати. Але під час виведення, коли генерується один токен за раз, деякі ключові кроки можуть тривати лише десятки мікросекунд, і накладні витрати на запуск і очікування стають відносно помітними.
Основна ідея TileRT: скомпілювати всю модель у постійно працюючий двигун, запустити один раз і працювати безперервно.
TileRT на етапі компіляції коду статично розгортає всю обчислювальну логіку моделі в єдиний неперервний конвеєр, забезпечуючи постійну високу швидкість роботи GPU під час виконання: обчислення, переміщення даних та комунікація відбуваються паралельно, а проміжні результати зберігаються в внутрішній високoshвидкісній кеш-пам’яті GPU, уникнувши повторних записів у повільну відеопам’ять та її повторного читання.

Тут є ключова деталь дизайну: спеціалізація Warp.
Щоб зрозуміти Warp, спочатку потрібно зрозуміти, як працює GPU. Найбільша відмінність GPU від CPU полягає в тому, що він містить тисячі відносно простих обчислювальних одиниць, які згруповані по 32 штуки, і така група називається Warp.
32 одиниці в одному Warp завжди повинні діяти синхронно та виконувати одну й ту саму інструкцію, як відділення в армії, де командир наказує всім одночасно виконувати одне й те саме діяння.
У традиційній архітектурі всі Warp виконують одну й ту саму послідовність інструкцій; TileRT дозволяє різним групам Warp виконувати різні завдання: одна група спеціалізується на попередньому завантаженні наступного набору даних, інша — на математичних обчисленнях, а третя — на взаємодії з іншими GPU. Три групи працюють одночасно, у синхронізації по конвеєру, не чекаючи одна на іншу.
Це як перехід від того, щоб один робітник переносив цеглу, клав стіну та приймав роботу послідовно, до того, як групи з перенесення цегли, кладки стін та приймання робіт працюють одночасно.
Проблему ефективності всередині однієї карти вирішено, але при паралельній роботі кількох карт виникають нові виклики.
Стандартною практикою у галузі є тензорне паралелізування (Tensor Parallel): розбиття матриць ваг моделі на кілька частин, де кожен GPU обробляє одну частину, а після завершення обчислень результати збираються через високoshвидкісне з’єднання (NVLink).
Цей підхід добре працює для регулярних щільних обчислень, таких як множення матриць, і є стандартним багатокардним рішенням для всіх сучасних фреймворків висновку великих моделей.
GLM-5.1 використовує **MLA (Multi-head Latent Attention, багатоголова латентна увага) — це механізм уваги, запропонований DeepSeek.
Традиційний механізм уваги вимагає зберігати всі проміжні дані (KV Cache), отримані на кожному кроці обчислення, що дуже витрачає пам’ять GPU; MLA компресує ці проміжні дані в компактний «латентний вектор», який зберігається, а потім розгортається та відновлюється при використанні, що значно зменшує вимоги до пам’яті та підвищує ефективність виведення.
Але в процесі обчислення MLA є спеціальний етап: необхідно створити розріджений індекс з великої кількості історичних даних — подібно до того, як у величезній бібліотеці спочатку швидко відібрати кілька найбільш релевантних книг, а потім уважно їх прочитати.
Крок «пошук книги» залежить від глобальної інформації і не підходить для розподілу між кількома картами; саме «уважне читання» є щільним обчисленням, яке підходить для паралельної роботи на кількох картах. Якщо намагатися залучити всі 8 GPU до «пошуку книги», велика кількість часу витрачатиметься на синхронізацію та зв’язок між GPU.
Рішення TileRT полягає у гетерогенному виконанні на GPU: GPU 0 спеціалізується на ролі «бібліотекаря», відповідаючи за розріджений індекс та прийняття рішень щодо маршрутизації; GPU 1–7 виконують роль «аналітиків глибокого читання», виконуючи щільні обчислення уваги та матричні операції. Обидва типи працівників застосовують найбільш підходящі стратегії паралелізму для спільного виконання всього обчислювального шару.

Потім TileRT інтегрував операції зв’язку між GPU безпосередньо в конвеєр виконання, а не як окремий крок. Зовні вся 8-карта система виконує один шар обчислення уваги лише з одним запуском ядра, а всі внутрішні комунікації та обчислення плавно завершуються всередині безперервного конвеєра.
Дві вищезазначені рівні вирішують проблеми в межах однієї машини. Коли кластер розширюється до сотень або тисяч GPU, передача даних між GPU сама стає новим обмеженням.
Стандартом галузі є ROFT (Rail-Optimized Fat-Tree) — офіційно рекомендоване рішення NVIDIA, обов’язковий вибір у галузі.
Його структура — це дерево: сервер спочатку підключається до нижніх Leaf-перемикачів (кінцевий рівень, що безпосередньо з’єднаний із серверами), а Leaf-перемикачі, у свою чергу, підключаються до Spine-перемикачів (магістральний рівень, що забезпечує зв’язок між різними Leaf, подібно до транспортного вузла). Дані, що передаються між двома GPU, повинні «спочатку піднятися до Spine, а потім спуститися до цільового Leaf» — мінімум три стрибки.
Щоб уникнути зосередження трафіку на кількох ланках, ця архітектура залежить від алгоритму ECMP для розподілу даних між кількома шляхами, що ефективно працює за умови «статистично рівномірного» інтернет-трафіку.
Але трафік у сценаріях висновування абсолютно нерівномірний. Різниця у довжині контексту між різними запитами може досягати десятків разів, напрямок передачі KV Cache між GPU майже випадковий, деякі листові комутатори періодично стають точками навантаження, що спричиняє механізми зворотного тиску і поширює запруду від локальної до повної ланцюжкової мережі. Ця запруда не вирішується налаштуванням протоколу — це наслідок самої топологічної структури.

Фундаментальний прорив ZCube: з архітектурної точки зору робить такі затори фізично неможливими.
Основний дизайн складається з двох етапів:
Крок 1: Вимкніть спинний кістяк, зробіть мережу плоскою. Розділіть всі листові комутатори на дві групи за парними та непарними номерами, повністю з’єднайте групи між собою: будь-який непарний комутатор з’єднаний з усіма парними, і навпаки. Будь-які два GPU можуть зв’язатися через максимум два комутатори, кількість стрибків зменшена з 3 до 2.

Другий крок, і найбільш тонкий момент: кожна GPU-карта підключається до двох різних груп комутаторів двома абсолютно різними способами. Ця спеціальна топологія надає ключову математичну властивість: між будь-якими двома GPU в мережі існує рівно один оптимальний шлях.

«Єдиний шлях» безпосередньо усуває корінні причини заторів. Традиційні архітектури схильні до перегрузок саме через наявність кількох варіантів шляхів — якщо алгоритм балансування навантаження вибирає неправильний шлях, це призводить до концентрації трафіку. ZCube у своєму дизайні повністю виключає саму можливість «вибору»: балансування не потрібне, бо взагалі немає розгалужень.
04 За тих самих умов обладнання, як розрахувати рахунок?
Після оновлення виробничого кластера GLM-5.1 від традиційного ROFT до ZCube, отримано три цифри:
Загалом, при тих самих вкладах у GPU кластер може обслуговувати більше користувачів; при тих самих вимогах до досвіду користувача кластер може купити на третину менше мережевого обладнання. Покращення ефективності та витрат у двох напрямках.

Зокрема, збільшення пропускної здатності на 15% еквівалентне отриманню додаткової 15% обчислювальної потужності без додаткових витрат. При незмінній кількості GPU збільшення пропускної здатності на 15% означає зниження середньої вартості апаратного забезпечення на кожен токен приблизно на 13%, або, іншими словами, при тих самих витратах можна обслуговувати на 15% більше користувачів.
Якщо кластер має 1000 GPU, це оновлення еквівалентне додаванню 150 карток у виробничій потужності, що за поточними ринковими цінами на висококласні карти для висновків становить мільярди юанів вартості обчислювальних ресурсів.
Хвостова затримка знизилася на 40,6%, що вирішує проблему стабільності, а не середньої швидкості. Для завдання агента, яке вимагає 50 викликів, якщо хвостова затримка зменшується на 1 секунду кожного разу, найгірший час завершення всього завдання скорочується майже на хвилину.
Витрати зменшилися на третину завдяки прямій економії на інфраструктурі. ZCube відмовилася від шару Spine, що прямо зменшує кількість необхідних комутаторів і оптичних модулів на третину при тій самій розмірності кластера. За оцінками Zhipu, у кластерах з тисячами прискорювачів лише цей крок дозволяє зекономити приблизно 210–640 мільйонів юанів.
З плином часу, із експоненційним зростанням розміру кластерів, складність комунікації між GPU зростає в кілька разів, а ймовірність та вплив забруднення також посилюються. Це означає, що цінність архітектурних інновацій, таких як ZCube, буде прискорено проявлятися з розширенням кластерів для висновків. Доходи від кластерів рівня «десять тисяч GPU» завтра можуть перевищити сьогоднішні 15%.
05 На завершення
Після прочитання технічного звіту ZhiPu, я задаюся питанням: чи спричинить це бурю в галузі, як це зробив DeepSeek?
Подумайте уважно — вплив обох факторів, схоже, проявляється в різних аспектах. Коли з’явився DeepSeek, він довів, що ту саму інтелектуальну здатність можна досягти значно меншою кількістю обчислювальних ресурсів. Ринок стурбувався, що «знадобиться менше GPU», тому акції NVIDIA втратили майже 600 мільярдів доларів ринкової капіталізації того ж дня.
Але сьогодні технічне підтвердження Zhipu: при тій самій обчислювальній потужності можна отримати більше. Вона переосмислює, якими мають бути інші інфраструктурні компоненти окрім GPU.
У короткостроковій перспективі NVIDIA не постраждає, але у довгостроковій перспективі ринкову перевагу, що ґрунтується на GPU + NVLink-з’єднанні + мережі InfiniBand + екосистемі ПЗ CUDA, починають підкопувати, зокрема InfiniBand, яку NVIDIA придбала за 6,9 млрд доларів США у Mellanox у 2019 році, — премія NVIDIA на ринку мережевих рішень буде значно зменшена.
Крім того, ZCube скасував шар Spine, але вимоги щодо щільності портів для Leaf-перемикачів зросли. Це корисно для виробників, які виробляють високощільні Leaf-перемикачі з великою кількістю портів (Ruijie, Arista, чіпи для перемикачів Broadcom), і шкідливо для виробників, які залежать від висококласних Spine-перемикачів для отримання надбавки.
У 2025 році Celestica та NVIDIA разом займають приблизно 50% ринкової частки на ринку AI-бекенд-комутаторів, і ця структура зазнає перерозподілу після поширення парадигми ZCube.
Оптичні модулі — це найбільш прямий напрямок вигоди від змін у ланцюжку поставок, логіка дуже ясна. Для китайських виробників оптичних модулів (наприклад, Zhongji旭創, Tianfu Communication) це структурна перевага: не тільки загальний обсяг зростає, але й попит на високоскоростні оптичні модулі (800G, 1,6T) у рамках парадигми ZCube є більш концентрованим і терміновим, ніж у традиційних архітектурах.
Як для архітектури TileRT, так і для ZCube, це чисто програмний інженерний рушій висновку, що працює на стандартних GPU, без залежності від приватних функцій апаратного забезпечення NVIDIA, теоретично може бути перенесений на китайські чіпи, такі як Huawei Ascend. Якщо цей напрямок буде успішно реалізований, це значно знизить бар’єри для програмного стеку китайських AI-чіпів у сценаріях висновку.
Це, можливо, і є більшим значенням цієї технологічної інновації.
