Інженерні оптимізації Zhipu AI забезпечують ефективність витрат та довіру ринку

Перший торгівельний день після святкування Весняних свят, Zhipu та MiniMax стрімко зросли.

4 травня Чжіпу зросла більше ніж на 10%, ціна акцій знову наблизилася до рівня 1000 юанів, MiniMax зросла на 12,62% і закрилася на рівні 803 гонконгських доларів.

Згідно з звітом Morgan Stanley, стрімкий зростання цін на акції пояснюється унікальним для Китаю «наративом про співвідношення ціни та якості» в галузі ШІ.

У звіті «China’s AI Path: More Bang For The Buck» Morgan Stanley зазначила, що за умов обмеженої обчислювальної потужності рівень інтелекту лідерських моделей Китаю та США швидко зближується, і розрив скоротився до 3–6 місяців.

Також у звіті зазначається, що справжнім перевагою китайських моделей є здатність досягти майже того ж рівня інтелекту, що й у американських аналогів, при витратах на висновування лише 15–20% від витрат американських моделей.

Це досить легко зрозуміти. Людям не обов’язково потрібні найпотужніші моделі, але більшість людей хочуть використовувати недорогі моделі.

Ринок купує не просту історію про «вітчизняну заміну», а те, як китайський ШІ перетворює співвідношення ціна-якість на реальні обсяги використання, реальний дохід і реальну еластичність оцінки.

Але виникає питання: звідки взялася ця співвідношення ціни та якості?

Якщо це просто здобуття клієнтів за низькими цінами, то це швидко перетвориться на цінову війну.

Якщо йдеться лише про дистиляцію моделей, а тепер такі компанії, як Anthropic та OpenAI, вже закрили доступ до дистиляції, чому оцінка не має знизитися, а навпаки — підвищилася?

Насправді, саме технічний блог від Zhipu, опублікований перед Днем праці під назвою «Scaling Pain: Практика виведення надвеликих Coding Agent», робить цей сценарій більш переконливим.

Цей блог не розповідає про величезні візії AGI, а замість цього відкриває перед ринком такі базові інженерні аспекти, як KV Cache, пропускна здатність, планування та виняткові виводи.

Головне, що він «розкрив» таємницю китайської штучного інтелекту з високою співвідношенням ціни та якості.

01

У цьому блозі ZhiPu приблизно розповідає, як за допомогою оптимізації кешу, планування та моніторингу винятків можна зробити більше роботи на тих самих GPU та зменшити кількість помилок.

Чжіпу виявила, що AI може працювати погано не тому, що модель не розумна, а через те, що фонова система занадто хаотична. Вона виправила проблему з перекриттям даних у кеші, оптимізувала планування GPU та повторне використання кешу, а також додала тривожний сигнал, який виявляє аномальні вихідні дані наперед.

Як наслідок, та сама модель і той самий GPU можуть обслуговувати більше користувачів і мають меншу ймовірність помилок. Тому їхня «історія про співвідношення ціни та якості» — це не просто зниження ціни, а інженерна оптимізація, яка дозволяє витягнути більше стабільної та доступної обчислювальної потужності з кожного GPU.

Після оптимізації нижнього рівня, системна пропускна здатність серії GLM-5 у сценаріях Coding Agent зросла до 132%, а частота системних помилок знизилася з приблизно 10 на 10 000 до 3 на 10 000.

Наприклад, раніше один GPU міг обслуговувати 100 завдань за годину, а зараз після оптимізації він може обслуговувати до 232 завдань.

Кожен елемент окремо не може вирішити результат. Але разом вони дають подвоєну пропускну здатність при тій самій обчислювальній потужності та підвищення стабільності на порядок.

Модель не змінилася. Змінився спосіб, яким модель почали "використовувати".

Зокрема, з березня智谱 спостерігав три типи аномалій у онлайн-моніторингу та відгуках користувачів GLM-5: мусор, повторення та рідкісні ієрогліфи. Ці явища на поверхні схожі на типові «зниження інтелекту» у сценаріях з довгим контекстом.

Але команда Zhipu не запускала жодних оптимізацій, що знижують точність моделі. Тоді чи походить аномалія від самої моделі, чи від ланцюжка висновування?

Після багаторазового аналізу та міркування журналів логів вони знайшли неочікуваний вхідний пункт: індикатор спекулятивного вибіркового аналізу може слугувати сигналом для виявлення аномалій.

Спекулятивне вибіркове виведення спочатку було лише технологією оптимізації продуктивності. Спочатку кандидатські токени генеруються моделлю-чернеткою, а потім цільова модель перевіряє їх і вирішує, чи приймати, щоб підвищити ефективність декодування без зміни кінцевого розподілу виведення.

Спочатку невелика модель швидко генерує серію відповідей, а потім велика модель вибирає правильну — так і швидко, і точно.

Команда Zhipu виявила, що під час виникнення аномалій два показники випадкового відбору демонструють стабільний патерн. Тому вони розширили випадковий відбір з простої оптимізації продуктивності до сигналу реального часу для моніторингу якості виводу.

Коли spec_accept_length постійно нижчий за 1,4, а довжина згенерованого тексту перевищує 128 токенів, або spec_accept_rate перевищує 0,96, система активно перериває поточне генерування та передає запит балансувальнику навантаження для повторної спроби.

Ці два показники подібні до показників медичного огляду: якщо вони відхиляються від норми, це означає, що модель «хворіє» і потребує перезапуску для лікування.

Хоча користувач не відчуває цього процесу, на тиловій стороні було успішно виконано таке перезавантаження.

Основною причиною винятку є конфлікт повторного використання KV Cache.

Це подібно до кухні, коли в години пік багато людей одночасно приходять робити замовлення.

Система має тимчасово зберігати контекст кожного користувача, тобто KV Cache. Що саме ці гості замовили раніше, чи хочуть вони менше перцю чи взагалі не їдять кинзи. З одним-двома гостями все добре, але коли їх багато, офіціант легко може заплутатися.

MiniMax

Під час високої завантаженості порядок вилучення, повторного використання та читання деяких кешів порушується. Як наслідок, модель може отримати неправильний контекст і вивести сміття, повторення або рідкісні символи.

У інференс-движку, у архітектурі з розділенням PD, існує невідповідність між життєвим циклом запиту та таймінгом звільнення та повторного використання KV Cache. При високому навантаженні паралелізму конфлікти посилюються, що проявляється на стороні користувача у вигляді сміття та повторень.

Кілька запитів одночасно борються за один блок пам’яті, в результаті дані збиваються, і користувачі бачать сміття.

Команда ZhiPu виявила цей баг і виправила його.

Крім того, вони виявили та виправили проблему відсутності порядку завантаження у модулі HiCache на рівні вихідного коду популярного відкритого інференс-фреймворка SGLang, відому як read-before-ready.

Рішення було подано до спільноти SGLang у вигляді Pull Request #22811 і прийнято.

SGLang — це відкритий проект, повна назва якого може бути розуміна як інфраструктура для високоефективного виведення/обслуговування великих мовних моделей. Це не велика модель і не компанія зі штучним інтелектом, а набір базових програмних засобів для ефективного запуску великих моделей.

ZhiPu виявила високопаралельний баг у кеші під час використання відкритого фреймворка SGLang.

Він не обмежувався виправленням лише власного коду — Zhipu також надіслав виправлення коду до відкритого проекту SGLang.

Після перевірки та прийняття від розробників проекту, виправлення було об’єднано у публічну версію, тому інші розробники та компанії, що використовують SGLang, зможуть скористатися ним.

Що це означає?

Якщо якийсь ланцюжок розгортання Qwen використовує SGLang+HiCache, то Alibaba також вигодується від того, що Zhipu виявило та виправило цю проблему.

Це та сама фраза, що й раніше: модель не змінилася, але завдяки інженерній оптимізації вона стала розумнішою у використанні.

02

Цей блог від ZhiPu справді розкриває глибший рівень.

Дешевизна чат-ботів у епоху штучного інтелекту в значній мірі пояснюється низькими витратами на навчання, частину навчальних даних отримують шляхом дистиляції з головних моделей.

У епоху агента цей трюк не працює.

З початку цього року Anthropic та OpenAI поступово закрили доступ до дистиляції, чітко заборонивши використовувати вихідні дані своїх моделей для навчання конкуруючих моделей. Шлях, що базується на дистиляції, стає все вужчим.

Але історія про співвідношення ціни та якості китайських AI-компаній не слабшає — ринок навпаки підсилює цю історію.

Причина полягає в тому, що визначення співвідношення ціни та якості змінилося.

У еру чат-ботів середній контекст становить 55 000 токенів, одноразова діалогова сесія, низька паралельність.

У епоху агента середній контекст становить понад 70 000 токенів, тривалі завдання (рівня 8 годин), висока паралельність та високе використання префіксів.

У еру чат-ботів одиниця виміру цінності ШІ дуже проста: за теж саме запитання, чия модель дешевша і чия відповідь ближча до рівня лінійних фахівців.

У галузі обговорюють, скільки коштує мільйон токенів, якого розміру параметри моделі та наскільки високі результати у рейтингах.

У епоху агента ніхто цього не запитував, цей алгоритм не працює.

Користувач купує не просто відповідь. Він купує результат повного завдання.

Кодувальний агент має читати код, розуміти контекст, планувати кроки, викликати інструменти, змінювати файли, запускати тести та повторювати спроби при невдачі. Кількість використаних токенів — це не приріст за один запит-відповідь, а загальний рахунок усього робочого процесу.

OpenRouter, як найбільша глобальна платформа викликів, щотижня обробляє загальну кількість токенів, яка зросла з 6,4 трильйона в перший тиждень січня 2026 року до 13 трильйонів у тиждень на 9 лютого — подвоїлася за місяць.

Офіційне твердження OpenRouter полягає в тому, що зростання потреби у викликах у діапазоні від 100K до 1M довгих текстів — це типовий сценарій споживання для робочих потоків агентів.

Люди перейшли від використання ШІ у «діалоговому» режимі до «процесного». Тому одиниця співвідношення ціни та якості ШІ змінилася з «ціни за токен» на «ціни за завдання».

Це призводить до того, що деякі моделі мають дешеві токени, але через низьку продуктивність моделі вони постійно невдалий виконують завдання або результати не відповідають вимогам, що робить ціну їх агентів не дешевою.

Наприклад, якщо під час виконання завдання з кодування на 8-годинному таймфреймі виникне хоча б одна помилка, весь робочий процес може знадобитися повторити з початку. Економія на ціні за токен не відшкодує витраченого часу.

Розповідь про співвідношення ціни та якості китайського ШІ піднімається на новий рівень.

Раніше говорили: «Виводжу відповіді того ж рівня, але дешевше». Зараз говорять: «За ту ж складність завдання я можу виконати його з меншими витратами».

Відкрите інфраструктурне забезпечення також стає новим ровом для китайського ШІ.

Як згадувалося раніше, саме SGLang. Інженерні здібності китайського ШІ починають впливати на спільноти на верхньому рівні.

Цінність цієї події полягає не лише в тому, що Zhipu виправило баг, а в тому, що китайські компанії зі штучним інтелектом починають перетворювати проблеми високої паралельності, довгих контекстів та викликів агентів у реальних бізнес-застосуваннях на здатності загальних інфраструктурних рішень.

Як згадувалося раніше, коли виправлення потрапляє до відкритого фреймворка, такого як SGLang, воно більше не обслуговує лише моделі Zhipu. Усі команди, які використовують цей фреймворк для розгортання великих моделей, отримують можливість отримувати більш стабільний кеш, нижчі витрати на виведення та кращий досвід роботи з агентами.

Здібності моделей можна наздогнати, ціни можна знизити, але інфраструктура, як тільки потрапляє в екосистему відкритого коду, стає стандартом, інтерфейсом та звичками розробки.

Хто раніше втілив свій інженерний досвід у ці системи нижчого рівня, той легше займе позицію під час наступного вибуху застосувань ШІ.

03

Повернення на ринок капіталу.

Акції компаній, пов’язаних з великими моделями ШІ, зросли всі разом — чи готовий капітал переприсвоїти цінність компаніям ШІ? Що саме купує ринок?

Відповідь полягає в тому, що ринки капіталу платять за історію про те, що китайські AI-компанії можуть досягти майже лідерського рівня інтелекту з нижчими витратами на висновки.

Також згідно з даними OpenRouter.

Частка споживання токенів провідними китайськими компаніями з ІШ зросла з 5% у квітні 2025 року до 32% у березні 2026 року. Частка провідних американських моделей скоротилася з 58% до 19%.

Використання токенів MiniMax, ZhiPu та Alibaba у лютому–березні 2026 року зросло в 4–6 разів порівняно з груднем минулого року.

Крім виклику токенів, китайський ШІ формує цілком відмінну від зарубіжних гігантів логіку зростання.

Зовнішні лідери моделей продають «премію за здатність».

Чим сильніші моделі, тим дорожче одна виклика. Користувачі платять за найпотужніший інтелект. Claude, GPT-5 і Gemini рухаються в цьому напрямку.

Китайський ІІ продавати «інженерію».

Можливості моделі наближаються до лідерських, але ціна, затримка та вимоги до виклику нижчі, що краще відповідає потребам більшості високочастотних сценаріїв.

У звіті Morgan Stanley зазначено, що вхідна ціна китайської моделі становить близько 0,3 долара США за мільйон токенів, тоді як ціни деяких аналогічних зарубіжних продуктів знаходяться близько 5 доларів США. Між ними розрив у кілька разів.

Коли ШІ перетворюється з інструменту для експериментів на інструмент продуктивності, співвідношення ціни та якості безпосередньо визначає частоту викликів.

Чим дешевшою є модель, тим сміливіше компанії передають їй більше завдань — служба підтримки, код, маркетинг, аналіз даних. Чим більше завдань виконується, тим більше токенів витрачається, і тим краще платформа може розподілити витрати на інфраструктуру.

MiniMax

Я вважаю, що в цьому етапі може виникнути ефект ланцюгової реакції.

Перший етап — це привернення розробників і підприємств за допомогою нижчих цін на API та більшої близькості до першої лінії.

Другий етап: більший обсяг викликів призведе до більш реальних сценаріїв, що спонукатиме модель та систему виведення продовжувати оптимізацію.

Третій етап, про який йдеться у технічному блозі Zhipu, — це зниження витрат на один токен і одну задачу за рахунок інженерної оптимізації, що дає виробникам можливість продовжувати знижувати ціни та збільшувати обсяги або підвищувати ціни у високодоходних сценаріях.

Четвертий раунд: коли витрачання токенів стає новим трафіком у епоху ШІ, той, хто зможе обслуговувати більше токенів з меншими витратами, наближається до статусу платформенної компанії на наступному етапі.

Якщо це просто зниження ціни моделі, ринок стурбований тим, що це субсидії та цінова війна, що все більше витрачає гроші, і рано чи пізно хтось вичерпає свої кошти.

Крім того, цінова війна не підтримує високу оцінку.

Але якщо зниження цін супроводжується зростанням пропускної здатності, повторним використанням кешу, зменшенням частоти помилок та підвищенням ефективності планування, то низька ціна — це не жертва прибутком на користь зростання, а вільний витратний простір, що з’явився завдяки зростанню інженерних можливостей.

Результати цінової війни та такої інженерної оптимізації, хоча обидва роблять модель дешевшою і можуть виглядати майже однаково у фінансовій звітності, значно відрізняються у моделях оцінки.

Перше — субсидія, ринок буде знижувати ціну. Друге — інженерний бар’єр, ринок буде підвищувати ціну.

Остаточно можна зробити висновок.

Раніше оцінка компаній зі штучним інтелектом залежала від меж здатностей моделей і того, хто ближче до AGI. Ринок тоді платив за «найсильніший інтелект», а визначення «найсильнішого інтелекту» ставало все більш нечітким, і вартість одного запиту зростала.

У епоху агентів оцінка все ще залежить від нижньої межі витрат. Дивіться, хто зможе ефективно, дешево та масштабно доставляти інтелектуальні рішення.

Для тих, хто прагне до найсучаснішого «інтелекту», це, можливо, не те, що китайський ІІ вміє робити краще.

Однак китайський ШІ найбільш ймовірно перетворить слова «інтелект» на інфраструктуру, доступну для всіх людей і підприємств.

А ринок готов платити лише тим компаніям, які можуть чітко пояснити свою логіку.

Цей матеріал надійшов із офіційного аккаунту WeChat «Буква-Банг» (ID: wujicaijing), автор: Мяо Чжэн