Инженерные оптимизации Zhipu AI повышают эффективность затрат и уверенность рынка

Первый торговый день после праздника 1 мая: Zhipu и MiniMax взлетели в цене.

4 мая акции ZhiPu выросли более чем на 10%, цена снова приблизилась к отметке в 1000 юаней, MiniMax подскочила на 12,62% и закрылась на уровне 803 гонконгских долларов.

Согласно отчету Morgan Stanley, рост цен на акции обусловлен уникальным для китайского ИИ «повествованием о соотношении цены и качества».

В отчете «China’s AI Path: More Bang For The Buck» Morgan Stanley заявила, что при ограничениях на вычислительные мощности интеллектуальный уровень ведущих моделей Китая и США быстро сближается, и разрыв сократился до 3–6 месяцев.

В то же время отчет указывает, что настоящая сильная сторона китайских моделей заключается в способности достигать уровня интеллекта, близкого к уровню американских аналогов, при стоимости вывода, составляющей всего 15–20% от стоимости американских моделей.

Это действительно легко понять. Не всем обязательно нужно использовать самые мощные модели, но большинство людей хотят использовать более дешевые модели.

Рынок покупает не просто историю «отечественной замены», а то, как китайский ИИ превращает соотношение цены и качества в реальный объем использования, реальный доход и реальную гибкость оценки.

Но возникает вопрос: откуда берется эта соотношение цены и качества?

Если цель — привлечение клиентов только по низкой цене, это быстро превратится в ценовую войну.

Если речь идет только о дистилляции модели, но сейчас такие компании, как Anthropic и OpenAI, уже закрыли доступ к дистилляции, то почему оценка не была снижена, а наоборот повышена?

На самом деле, то, что действительно сделало этот нарратив более убедительным, — это технический блог, опубликованный Zhipu перед Днем труда: «Scaling Pain: Практика вывода сверхмасштабного Coding Agent».

Этот блог не говорит о масштабных видениях AGI, а вместо этого раскрывает перед рынком такие низкоуровневые инженерные аспекты, как KV Cache, пропускная способность, планирование и аномальные выходы.

Главное, что он «разоблачил» секрет китайского ИИ с высокой ценовой эффективностью.

01

В этом блоге ZhiPu подробно описала, как с помощью оптимизации кэширования, планирования и мониторинга исключений можно заставить один и тот же GPU выполнять больше задач и допускать меньше ошибок.

ZhiPu обнаружила, что плохая работа ИИ может быть вызвана не только недостаточной умностью модели, но и слишком хаотичной системой фоновой работы. Она устранила проблему с перекрестными данными кэша, оптимизировала планирование GPU и повторное использование кэша, а также добавила оповещатель, способный заранее обнаруживать аномальные выходные данные.

В результате одинаковая модель и одинаковая GPU могут обслуживать больше пользователей с меньшей вероятностью ошибок. Поэтому их «история о соотношении цены и качества» — это не просто снижение цен, а инженерная оптимизация, позволяющая извлечь больше стабильной и пригодной для использования вычислительной мощности из каждой GPU.

После оптимизации базовой инженерной архитектуры системная пропускная способность серии GLM-5 в сценарии Coding Agent увеличилась максимум на 132%, а частота системных ошибочных выходов снизилась с примерно 10 на 10 000 до 3 на 10 000.

Например, раньше один GPU мог обрабатывать 100 задач в час, а теперь после оптимизации он может обслуживать до 232 задач в час.

Каждый элемент в отдельности недостаточен для определения исхода. Но в совокупности они обеспечивают удвоенную пропускную способность при равной вычислительной мощности и повышение стабильности на порядок и более.

Модель не изменилась. Изменился способ, каким моделью "воспользовались".

Конкретно, начиная с марта, Zhipu зафиксировала три типа аномалий в онлайн-мониторинге и отзывах пользователей GLM-5: мусорные символы, повторения и редкие иероглифы. Эти явления внешне похожи на типичное «снижение интеллекта» при работе с длинным контекстом.

Однако команда Zhipu не внедрила никаких оптимизаций, снижающих точность модели. Тогда в чем причина аномалии — в самой модели или в цепочке вывода?

После многократного анализа и рассуждения журналов логов они обнаружили неожиданный подход: индикатор спекулятивной выборки может служить сигналом для обнаружения аномалий.

Сэмплирование с предсказанием изначально было лишь технологией оптимизации производительности. Сначала модель-черновик генерирует кандидатские токены, после чего целевая модель проверяет их и решает, принимать ли, тем самым повышая эффективность декодирования без изменения конечного распределения выводов.

Сначала небольшая модель быстро генерирует набор ответов, а затем крупная модель выбирает правильный — так и быстро, и точно.

Команда ZhiPu обнаружила, что при возникновении аномалий два показателя случайной выборки демонстрируют устойчивый паттерн. Поэтому они расширили случайную выборку от простой оптимизации производительности до сигнала в реальном времени для мониторинга качества вывода.

Когда spec_accept_length постоянно ниже 1,4, а длина сгенерированного текста превысила 128 токенов, или spec_accept_rate превышает 0,96, система автоматически прерывает текущую генерацию и передает запрос балансировщику нагрузки для повторной попытки.

Эти два числа, как показатели медицинского обследования: как только они выходят за норму, это означает, что модель «заболела» и требует перезапуска для лечения.

Пользователь не ощущает этот процесс, но на фоне действительно была выполнена такая перезагрузка.

Основная причина ошибки — конфликт повторного использования KV Cache.

Это похоже на кухню: в час пик многие одновременно приходят, чтобы сделать заказ.

Системе необходимо временно сохранять контекст каждого пользователя, то есть KV Cache. Что именно заказывали эти гости ранее, хотят ли они меньше перца или вообще без кориандра. С одним-двумя гостями всё ещё можно справиться, но когда гостей становится много, официант легко может ошибиться.

MiniMax

При высокой нагрузке порядок извлечения, повторного использования и чтения некоторых кэшей нарушается. В результате модель может использовать неверный контекст, что приводит к выводу бессмысленных символов, повторов или редких иероглифов.

В архитектуре с разделением PD в движке вывода существует несоответствие между жизненным циклом запроса и временной последовательностью освобождения и повторного использования KV Cache. При высокой нагрузке параллелизма конфликты усиливаются, что проявляется на стороне пользователя в виде искажений и повторов.

Несколько запросов одновременно конкурируют за один участок памяти, в результате данные повреждаются, и пользователи видят мусор.

Команда ZhiPu выявила этот баг и устранила его.

Кроме того, они обнаружили и устранили проблему отсутствия порядка загрузки в модуле HiCache на уровне исходного кода популярной открытой инференс-платформы SGLang, известную как read-before-ready.

Решение было представлено в SGLang-сообщество через Pull Request #22811 и принято.

SGLang — это открытый проект, название которого можно понимать как фреймворк для вывода/сервиса крупных языковых моделей. Это не сама крупная модель и не компания в области ИИ, а набор базового программного обеспечения для эффективной работы крупных моделей.

При использовании открытой инференсной рамки SGLang ZhiPu обнаружила баг кэширования при высокой нагрузке.

Он не ограничился исправлением внутри себя — Zhipu также отправила исправленный код в открытый проект SGLang.

После проверки и принятия проектным поддерживаемым, исправление было объединено. Таким образом, это исправление стало доступно в публичной версии, и другие разработчики и компании, использующие SGLang, также смогут его использовать.

What does this mean?

Если какой-либо деплоймент-путь Qwen использует SGLang+HiCache, то Alibaba также получит выгоду благодаря тому, что Zhipu обнаружило и устранило эту проблему.

Как я уже говорил, модель не изменилась, но благодаря инженерной оптимизации она стала умнее в использовании.

02

Этот блог от ZhiPu действительно раскрывает более глубокий уровень.

Дешевизна в эпоху чат-ботов во многом обусловлена низкой стоимостью обучения, часть обучающих наборов которых получена путем дистилляции моделей топ-уровня.

В эпоху агента этот метод не сработает.

В этом году Anthropic и OpenAI постепенно закрыли доступ к дистилляции, явно запретив использовать выводы своих моделей для обучения конкурирующих моделей. Путь, основанный на уловках дистилляции, становится все уже.

Но повествование о соотношении цены и качества китайских ИИ-компаний не ослабло — рынок, наоборот, усиливает эту историю.

Причина в том, что определение соотношения цены и качества изменилось.

В эпоху чат-ботов средний контекст составляет 55 000 токенов, однократный диалог, низкая параллельность.

В эпоху агентов средний контекст превышает 70 000 токенов, длительные задачи (уровня 8 часов), высокая параллельность и высокая повторяемость префиксов.

В эпоху чат-ботов единица измерения соотношения цены и качества ИИ проста: при задании одного и того же вопроса, чья модель дешевле и чей ответ ближе к уровню ведущих специалистов?

Отрасль обсуждает, сколько стоит один миллион токенов, какой размер параметров модели и насколько высоки результаты в рейтингах.

В эпоху агента никто об этом не спрашивал — этот алгоритм устарел.

Пользователь покупает не просто ответ, а результат выполнения всей задачи.

Кодинг-агент должен читать код, понимать контекст, планировать шаги, вызывать инструменты, изменять файлы, запускать тесты и повторять попытки при неудаче. Количество токенов, которое он потребляет, — это не прирост одного вопроса и ответа, а общая сумма всего рабочего процесса.

OpenRouter, как крупнейшая в мире платформа для вызовов, еженедельно обрабатывает объем токенов, который вырос с 6,4 трлн в первую неделю января 2026 года до 13 трлн на неделю 9 февраля — удвоился за месяц.

Официальное заявление OpenRouter гласит, что прирост запросов в диапазоне от 100K до 1M для длинных текстов — это типичный сценарий потребления для рабочих процессов агентов.

Пользователи перешли от использования ИИ в «диалоговом» режиме к «процессному» режиму. Соответственно, единица стоимости ИИ изменилась с «цены за токен» на «цену за задачу».

Это приводит к тому, что у некоторых моделей токены дешевы, но из-за низкой производительности модели они постоянно терпят неудачу при выполнении задач или не достигают требуемых результатов, в результате чего цена их агента не является низкой.

Например, если при выполнении задачи по кодированию на 8-часовом таймфрейме произойдет хотя бы один сбой, весь рабочий процесс может потребовать повторения. Экономия на цене токенов не компенсирует потраченное время.

В Китае история о соотношении цены и качества в области ИИ продолжает развиваться.

Раньше говорилось: «Я предоставляю ответы того же уровня, но дешевле». Сейчас говорится: «Для таких же сложных задач я могу завершить их с меньшими затратами».

Открытая инфраструктура также становится новым рвом для китайского ИИ.

Упомянутый ранее SGLang именно таков. Инженерные возможности китайского ИИ начинают распространяться на сообщество вверх по цепочке.

Ценность этого события заключается не только в том, что Zhipu исправило баг, а в том, что китайские компании в области ИИ постепенно превращают проблемы высокой нагрузки, длинного контекста и вызовов агентов из реальных бизнес-приложений в возможности общих инфраструктурных решений.

Как упоминалось ранее, когда исправление попадает в открытую платформу, такую как SGLang, оно перестаёт служить только моделям Zhipu. Все команды, использующие эту платформу для развертывания крупных моделей, получают возможность повысить стабильность кэширования, снизить стоимость вывода и улучшить опыт работы с агентами.

Модельные возможности можно догнать, цену можно подавить, но инфраструктура, попав в экосистему с открытым исходным кодом, становится стандартом, интерфейсом и привычками разработки.

Кто раньше запишет свой инженерный опыт в эти базовые системы, тот легче займет позицию в следующем всплеске применения ИИ.

03

Возвращаемся на рынок капитала.

Акции компаний, связанных с крупными ИИ-моделями, выросли во всех секторах. Капитал готов переоценить ИИ-компании? Что именно покупает рынок?

Ответ в том, что рынок капитала платит за нарратив о том, что китайские AI-компании могут достигать уровня передовых интеллектуальных решений при более низкой стоимости вывода.

Возьмем данные OpenRouter.

Доля токенов, потребляемых ведущими китайскими компаниями в области ИИ, быстро выросла с 5% в апреле 2025 года до 32% в марте 2026 года. Доля ведущих американских моделей снизилась с 58% до 19%.

Использование токенов MiniMax, ZhiPu и Alibaba выросло в 4–6 раз в феврале–марте 2026 года по сравнению с декабрем прошлого года.

Помимо вызовов токенов, китайский ИИ формирует логику роста, совершенно отличную от логики зарубежных гигантов.

Зарубежные ведущие модели продают «премию за способности».

Чем мощнее модель, тем дороже один вызов — пользователи платят за наивысший уровень интеллекта. Claude, GPT-5 и Gemini движутся в этом направлении.

Китайский ИИ продает «инженерию».

Возможности модели приближаются к ведущим моделям, но цена, задержка и порог вызова ниже, что лучше соответствует потребностям большинства высокочастотных сценариев.

В отчете Morgan Stanley указано, что стоимость ввода данных для китайской модели составляет около 0,3 доллара США за миллион токенов, в то время как цены на некоторые аналогичные зарубежные продукты находятся около 5 долларов. Между ними существует разница в десятки раз.

Когда ИИ превращается из инструмента для экспериментов в инструмент для повышения производительности, соотношение цены и качества напрямую определяет частоту его использования.

Чем дешевле модель, тем смелее компании могут поручать ей больше задач — обслуживание клиентов, код, маркетинг, анализ данных. Чем больше задач выполняется, тем больше токенов потребляется, и тем легче платформе покрывать затраты на инфраструктуру.

MiniMax

Я считаю, что на этом этапе может сформироваться вращающийся механизм.

Первый круг — это привлечение разработчиков и компаний с помощью более низких цен на API и более близкой к первому эшелону способности.

Второй круг: более высокий объем вызовов приведет к большему количеству реальных сценариев, что стимулирует дальнейшую оптимизацию модели и системы вывода.

Третий круг, о котором говорится в техническом блоге Zhipu, — это снижение стоимости на единицу токена и на единицу задачи за счет инженерной оптимизации, что позволяет производителям продолжать снижать цены, увеличивать объемы или повышать цены в сценариях с высокой ценностью.

Четвертый круг: когда потребление токенов становится новым трафиком в эпоху ИИ, тот, кто сможет поддерживать большее количество токенов с меньшими затратами, приблизится к следующему этапу как платформенная компания.

Если снижение цены происходит только из-за модели, рынок будет обеспокоен тем, что это субсидии и ценовая война, которые всё больше расходуют деньги, и в конце концов чей-то кошелёк не выдержит.

Кроме того, ценовая война не может оправдать высокую капитализацию.

Но если снижение цен обусловлено повышением пропускной способности, повторным использованием кэша, снижением уровня ошибок и повышением эффективности планирования, то низкие цены — это не жертва прибыли ради роста, а освободившееся из-за улучшения инженерных возможностей пространство для снижения затрат.

Результаты ценовой войны и такой инженерной оптимизации, хотя оба делают модель дешевле и могут выглядеть похоже в отчетах о прибылях и убытках, значительно различаются в моделях оценки.

Первое — субсидия, на рынке это будет дисконтироваться. Второе — инженерный барьер, на рынке это будет премироваться.

В конце можно сделать вывод.

Раньше оценка компаний, занимающихся ИИ, основывалась на потенциале их моделей и на том, насколько близко они находились к AGI. Тогда рынок платил за «самый мощный интеллект», а определение «самого мощного интеллекта» становилось все более расплывчатым, и стоимость одного запроса постоянно росла.

В эпоху агентов оценка все еще зависит от нижней границы стоимости. Важно, кто сможет доставить интеллектуальные решения стабильно, недорого и в масштабе.

Для тех, кто стремится к самому передовому «интеллекту», это, возможно, не то, в чем китайский ИИ силен.

Однако китайский ИИ наиболее вероятно превратит слова «интеллект» в инфраструктуру, доступную всем людям и предприятиям.

А рынок готов платить только тем компаниям, которые могут четко объяснить свою логику.

Эта статья взята из официального аккаунта WeChat «Буквенный список» (ID: wujicaijing), автор: Мяо Чжэн