Акции Zhipu AI выросли на 26% после запуска API с производительностью 400 токенов/с

Статья | AIDeepDive

Сегодня акции «Chigpt» (02513.HK), «первой компании в мире, специализирующейся на крупных моделях», снова резко выросли.

Во время торгов рост достигал более 30%. Закрытие на уровне 1282 гонконгских долларов, рост за день превысил 26%, рыночная капитализация достигла 571,57 млрд гонконгских долларов, вновь установив исторический максимум.

большая модель

Что спровоцировало этот рост — конкретный технический индикатор: 400 tokens/s.

22 мая компания Zhipu официально открыла для корпоративных клиентов API GLM-5.1 High-Speed (GLM-5.1-highspeed), ключевой параметр которого — скорость вывода модели достигает 400 токенов в секунду, установив новый мировой рекорд скорости API для крупных моделей.

Я изначально думал, что это снова PR-упаковка китайской крупной языковой модели, но, внимательно изучив технические детали, я наконец понял логику, стоящую за финансовыми рынками.

Что означает 400 токенов/с?

Модель может генерировать около 200 китайских иероглифов в секунду, что эквивалентно интенсивному объему работы профессионального писателя за минуту, сжатому в одну секунду.

Объем текста, который автору требуется несколько дней непрерывной работы, GLM-5.1 High-Speed версия может завершить за одну минуту; задача по рефакторингу системы, которую инженер выполняет три дня, она может выполнить за время, пока вы выпьете чашку кофе.

01 Скорость важнее, чем ты думаешь

Скорость — это измерение, которое традиционно наиболее игнорировалось в конкуренции между моделями ИИ.

За последние три года гонка вооружений в области крупных моделей сосредоточивалась на двух направлениях: масштаб параметров (модели становятся больше и умнее) и ценовая война (токены становятся дешевле и доступнее). «Скорость» никогда не была главным героем.

Это связано с тем, что ранее «быстрота» обычно достигалась за счет уменьшения параметров модели. Для ускорения необходимо использовать более мелкие и упрощенные модели, что сопряжено с потерей производительности.

GLM-5.1 High-Speed версия имеет значение тем, что, сохраняя возможности флагманской полноразмерной базовой модели, она достигла скорости 400 токенов/с.

Впервые «флагманские возможности» и «экстремально низкая задержка» были реализованы без компромиссов — как с точки зрения китайских моделей, так и в международном контексте.

большая модель

Почему скорость так важна? Потому что основная сфера деятельности ИИ претерпевает фундаментальные изменения.

Когда ИИ переходит от чат-ботов к эпохе агентов, вопросы и ответы больше не являются основной сценой для ИИ. Чтобы выполнить задачу, агенту часто требуется десятки, а то и сотни циклов самовызова модели: написание кода, вызов интерфейсов, поиск информации, использование инструментов...

В этом режиме работы задержка между каждым вызовом неумолимо накапливается и усиливается. Задача, требующая 50 вызовов, если каждый вызов экономит 1 секунду, завершится почти на минуту быстрее. Для AI-помощников по программированию, голосовых интерфейсов и систем бизнес-решений такая разница может быть решающей.

На более глубоком уровне, более быстрая инференция в рамках фиксированного временного бюджета означает, что модель может пройти более глубокие пути рассуждения и выполнить больше циклов самопроверки. Скорость превращается из системного показателя в саму границу интеллекта.

02 Насколько сложно это скорость?

Какой сейчас уровень скорости в отрасли?

Среди ведущих производителей GPT-4o от OpenAI работает примерно на 100–150 токенов/с, серия Claude Sonnet от Anthropic — на 80–120 токенов/с, а большинство основных отечественных моделей API находятся в диапазоне 50–100 токенов/с. 400 токенов/с — это примерно в 3–5 раз выше среднего показателя отрасли.

Более важно, что этот разрыв нельзя преодолеть просто за счет увеличения вычислительной мощности.

Сервер с восемью графическими процессорами H200 теоретически может перемещать до 38 ТБ данных в секунду. Для GLM-5.1 для генерации одного токена требуется считать около 42 ГБ активационных параметров; при чисто теоретических расчетах скорость должна приближаться к 1000 токенов/с.

Но реальные системы часто могут обрабатывать только десятки токенов в секунду.

большая модель

Это разрыв на порядок. GPU не слишком медленные — большая часть времени тратится впустую на ожидание, простой и неэффективное планирование.

ZhiPu на этот раз достигла прорыва в конечной скорости за счет одновременных инноваций на трех уровнях: движке вывода, стратегии параллелизма и архитектуре сети.

большая модель

03 Три уровня технологий, приближающиеся к физическим пределам оборудования

Большие модели работают следующим образом: они разбиваются на отдельные операторы, каждый из которых запускает вычислительное ядро (kernel) отдельно, завершает вычисление, синхронно ожидает и затем запускает следующий.

На этапе обучения каждое вычисление занимает от нескольких секунд до нескольких минут, поэтому накладные расходы на запуск и ожидание полностью незначительны. Однако при выводе генерация одного токена может занимать всего несколько десятков микросекунд, и накладные расходы на запуск и ожидание становятся относительно заметными.

Основная идея TileRT: скомпилировать всю модель в постоянно работающий движок, запустить один раз и работать без остановки.

TileRT на этапе компиляции кода заранее статически раскрывает всю вычислительную логику модели в виде непрерывного конвейера, обеспечивая постоянную высокую нагрузку на GPU во время выполнения: вычисления, перемещение данных и коммуникация происходят параллельно, а промежуточные результаты максимально сохраняются во внутренней высокоскоростной кэш-памяти GPU, избегая повторной записи в медленную видеопамять и последующего чтения.

большая модель

Здесь есть ключевая деталь дизайна: специализация Warp.

Чтобы понять Warp, нужно сначала понять, как работает GPU. Главное отличие GPU от CPU заключается в том, что внутри него содержатся тысячи относительно простых вычислительных блоков, которые объединены в группы по 32 штуки; такая группа называется Warp.

32 элемента в одном Warp должны всегда действовать синхронно и выполнять одну и ту же команду, как отделение в армии, где командир приказывает всем одновременно выполнить одно и то же действие.

В традиционной архитектуре все Warp выполняют одну и ту же последовательность инструкций; TileRT позволяет различным группам Warp выполнять разные задачи: одна группа специально занимается предварительной загрузкой следующего пакета данных, другая — исключительно математическими вычислениями, а третья — связью с другими GPU. Три группы работают одновременно, согласованно по принципу конвейера, не ожидая друг друга.

Это как если бы переход от того, что один рабочий последовательно переносит кирпичи, кладет стену и проверяет работу, к тому, что группы по переносу кирпичей, кладке стен и проверке работ выполняют свои задачи одновременно.

Проблема эффективности внутри одной карты решена, но при параллельной работе нескольких карт возникают новые вызовы.

Стандартной практикой в отрасли является тензорное параллелизирование (Tensor Parallel): весовые матрицы модели разделяются на несколько частей, каждая из которых обрабатывается отдельным GPU, а затем результаты объединяются через высокоскоростное соединение (NVLink).

Этот подход отлично подходит для регулярных плотных вычислений, таких как умножение матриц, и является стандартным многокарточным решением для всех современных фреймворков вывода крупных моделей.

GLM-5.1 использует **MLA (Multi-head Latent Attention, многоголовую скрытую внимательность), механизм внимания, разработанный DeepSeek.

Традиционный механизм внимания требует полного сохранения всех промежуточных данных, вычисляемых на каждом шаге (KV Cache), что сильно расходует видеопамять; MLA сначала сжимает эти промежуточные данные в компактный «латентный вектор», сохраняет его, а при использовании расширяет и восстанавливает, что значительно снижает потребность в видеопамяти и повышает эффективность вывода.

Но в процессе расчета MLA есть специальный этап: необходимо создать разреженный индекс из большого объема исторических данных — как быстро найти несколько наиболее релевантных книг в огромной библиотеке, а затем внимательно их изучить.

Этап «поиск книги» зависит от глобальной информации и не подходит для распределения между несколькими картами; именно «внимательное чтение» является плотным вычислением, подходящим для параллельной обработки на нескольких картах. Если принудительно вовлечь все 8 GPU в этап «поиск книги», значительное время будет потрачено на синхронизацию и обмен данными между GPU.

Решение TileRT заключается в гетерогенном выполнении на GPU: GPU 0 выполняет роль «библиотечного архивариуса», отвечая за разреженные индексы и принятие решений о маршрутизации; GPU 1–7 выполняют роль «аналитиков детального чтения», отвечая за плотные вычисления внимания и матричные операции. Оба типа работников используют оптимальные для них стратегии параллелизма для совместного выполнения всего вычислительного слоя.

большая модель

Затем TileRT интегрировал операции связи между GPU непосредственно в конвейер выполнения, больше не выделяя их в отдельные шаги. Снаружи кажется, что вся 8-карточная система выполняет один слой внимания всего за один запуск ядра, а внутренняя связь и вычисления полностью осуществляются бесшовно в рамках непрерывного конвейера.

Два вышеуказанных уровня решают проблемы в пределах одного сервера. Когда кластер масштабируется до сотен или даже тысяч GPU, передача данных между GPU сама становится новым ограничением.

Отраслевой стандарт — ROFT (Rail-Optimized Fat-Tree), официально рекомендованное NVIDIA решение и обязательный выбор в отрасли.

Его структура представляет собой дерево: серверы сначала подключаются к нижним Leaf-коммутаторам (уровень доступа, непосредственно взаимодействующим с серверами), а Leaf-коммутаторы в свою очередь подключаются к Spine-коммутаторам (магистральный уровень, отвечающий за взаимосвязь между различными Leaf, подобно узлу автострады). Передача данных между двумя GPU должна проходить «сначала вверх к Spine, затем вниз к целевому Leaf» и по крайней мере включает три прыжка.

Чтобы избежать скопления трафика на нескольких каналах, эта архитектура полагается на алгоритм ECMP для распределения данных между несколькими путями и эффективно функционирует при условии «статистически равномерного» интернет-трафика.

Но трафик в сценариях вывода совершенно неравномерен. Длина контекста различных запросов может отличаться в десятки раз, направление передачи KV Cache между GPU почти случайно, некоторые листовые коммутаторы периодически становятся точками перегрузки, вызывая механизм обратного давления и распространяя заторы от локальных участков на всю цепочку. Такая перегрузка не устраняется настройкой протокола — это следствие самой топологии.

большая модель

Фундаментальный прорыв ZCube: физически исключает такие заторы на уровне архитектуры.

Основной дизайн состоит из двух этапов:

Первый шаг: отключите спинный слой, реализуйте плоскую топологию всей сети. Разделите все листовые коммутаторы на две группы по четным и нечетным номерам, полностью соедините между собой обе группы: любой нечетный коммутатор подключен ко всем четным коммутаторам, и наоборот. Любые два GPU могут взаимодействовать друг с другом через максимум два коммутатора, количество прыжков сокращено с 3 до 2.

большая модель

Второй шаг, и самое изящное место: каждая сетевая карта GPU подключается к двум группам коммутаторов двумя совершенно разными способами. Эта специальная топология обеспечивает ключевое математическое свойство: между любыми двумя GPU в сети существует ровно один оптимальный путь.

большая модель

«Единственный путь» напрямую устраняет коренную причину перегрузок. Традиционные архитектуры склонны к возникновению горячих точек именно потому, что существует несколько путей, и ошибочный выбор алгоритма балансировки нагрузки приводит к концентрации трафика. ZCube изначально исключает саму возможность «выбора»: балансировка не требуется, поскольку вообще нет разветвлений.

04 При одинаковых условиях оборудования, как вести учет?

После обновления производственного кластера GLM-5.1 от традиционного ROFT до ZCube, Чжипу получила три цифры:

В целом, при одинаковых вложениях в GPU кластер может обслуживать больше пользователей; при тех же требованиях к пользовательскому опыту кластеру нужно на треть меньше сетевого оборудования. Эффективность и стоимость улучшаются одновременно.

большая модель

Конкретно: повышение пропускной способности на 15% эквивалентно получению дополнительных 15% вычислительных мощностей бесплатно. При неизменном количестве GPU увеличение пропускной способности на 15% означает снижение средних затрат на аппаратное обеспечение на каждый токен примерно на 13%, или, другими словами, при тех же затратах можно обслуживать на 15% больше пользователей.

Если кластер имеет 1000 GPU, это обновление эквивалентно добавлению 150 дополнительных карт, что по текущей рыночной цене высокопроизводительных карт для вывода составляет миллиарды юаней стоимости вычислительных ресурсов.

Хвостовая задержка снизилась на 40,6%, решая проблему стабильности, а не средней скорости. Для задачи агента, требующей 50 вызовов, если хвостовая задержка сокращается на 1 секунду каждый раз, наихудшее время завершения всей задачи сокращается почти на минуту.

Снижение затрат на одну треть — это прямая экономия на этапе строительства. ZCube устранила уровень Spine, что напрямую сокращает количество требуемых коммутаторов и оптических модулей на одну треть при том же размере кластера. По оценкам Zhipu, в кластере с масштабом в десять тысяч процессоров только за счет этого можно сэкономить от 210 до 640 миллионов юаней.

В долгосрочной перспективе, по мере экспоненциального роста масштаба кластера, сложность коммуникации между GPU возрастает в несколько раз, а вероятность и влияние перегрузок также пропорционально увеличиваются. Это означает, что ценность архитектурных инноваций, таких как ZCube, будет ускоренно проявляться по мере постоянного расширения кластеров для вывода. Выгода от кластеров уровня 10 000 GPU завтра может превысить сегодняшние 15%.

05 Заключение

После прочтения технического отчета Zhipu я задаюсь вопросом: вызовет ли он бурю в отрасли, подобно тому, как это сделал DeepSeek?

Подумав об этом внимательно, кажется, что их влияние проявляется в разных аспектах. Когда появился DeepSeek, он доказал, что тот же уровень интеллекта можно достичь с значительно меньшими вычислительными ресурсами. Рынок обеспокоился тем, что «потребность в GPU снизится», и поэтому капитализация NVIDIA упала почти на 600 миллиардов долларов в тот же день.

Но сегодня технологическое доказательство Zhipu показывает: при той же вычислительной мощности можно получить больше. Оно перестраивает представление о том, какими должны быть другие инфраструктурные компоненты за пределами GPU.

В краткосрочной перспективе NVIDIA не пострадает, но в долгосрочной перспективе конкурентное преимущество, основанное на GPU + NVLink, сети InfiniBand и экосистеме программного обеспечения CUDA, начинает ослабевать, особенно учитывая, что NVIDIA за 6,9 млрд долларов в 2019 году приобрела Mellanox и ее технологию InfiniBand — премия за сетевые решения NVIDIA будет значительно сокращена.

Кроме того, ZCube убрал уровень Spine, но при этом повысил требования к плотности портов на Leaf-коммутаторах. Выигрывают производители, способные выпускать высокоплотные Leaf-коммутаторы с большим количеством портов (Ruijie, Arista, чипы коммутаторов Broadcom), а страдают производители, в основном полагающиеся на премиальные высококлассные коммутаторы Spine.

В 2025 году Celestica и NVIDIA вместе занимают около 50% рынка AI-коммутаторов для задней панели, и эта структура будет перераспределена после распространения парадигмы ZCube.

Оптические модули — это наиболее прямой受益 направление в этих изменениях цепочки поставок, логика очень ясна. Для китайских производителей оптических модулей (например, Zhongji Chuangzao, Tianfu Communications) это структурное благоприятное условие: не только общий объем растет, но и спрос на высокоскоростные оптические модули (800G, 1,6 Тб) в рамках парадигмы ZCube более концентрирован и срочен, чем в традиционных архитектурах.

Независимо от архитектуры TileRT или ZCube, это чисто программный движок вывода, работающий на стандартных GPU, не зависящий от проприетарных аппаратных функций NVIDIA и теоретически портируемый на такие китайские чипы, как Huawei Ascend. Если этот путь будет успешно пройден, это значительно снизит барьеры для программного стека китайских ИИ-чипов в сценариях вывода.

Это, возможно, и есть более значимый смысл этого технологического инновационного решения.