Google представила локальную ИИ-инференцию в три раза быстрее без нового оборудования

CoinDesk сообщает:

Хотя запуск искусственного интеллекта на собственном компьютере — это хорошо — не всегда так.

Обещает защиту конфиденциальности, без подписки и данных, которые не покидают ваше устройство. Но для большинства людей реальность такова: между предложениями курсор мигает пять секунд.

Этот узкий момент имеет название: скорость вывода. Он не связан с интеллектуальными способностями модели, а является проблемой оборудования. Стандартные модели ИИ генерируют по одному фрагменту слова (называемому «токен») за раз, и оборудование должно передавать миллиарды параметров из памяти в вычислительный блок для генерации каждого токена. Сама по себе такая архитектура очень медленна. На потребительском оборудовании это просто невыносимо.

Большинство людей используют обходные пути, запуская более мелкие и менее производительные модели или сильно сжатые версии, называемые квантованными моделями. Оба варианта не идеальны — они жертвуют качеством ради скорости. Хотя они работают, это не та модель, которую вы действительно хотите.

Теперь Google предлагает другое решение. Компания только что выпустила черновик многосетевого прогнозирования (MTP) для своей открытой технологической платформы Gemma 4 Family — эта технология позволяет достичь ускорения до 3 раз без какого-либо влияния на качество модели или ее способность к выводу.

Этот метод называется спекулятивным декодированием, и его концепция существует уже много лет. Исследователи Google опубликовали основополагающую статью еще в 2022 году. Только сейчас эта идея начала получать широкое признание, поскольку для ее масштабного применения требуется подходящая архитектура.

Проще говоря, принцип его работы следующий: вместо того чтобы полагаться исключительно на мощную крупную модель, её объединяют с небольшой «предикторной» моделью. Предиктор быстр и дешев — он может одновременно предсказать несколько токенов за время, даже меньшее, чем требуется крупной модели для генерации одного токена. Затем крупная модель проверяет все эти предсказания за один проход. Если предсказания верны, полная последовательность получается с затратами всего на один прямой проход.

По словам Google«Если целевая модель согласна с этим черновиком, она принимает всю последовательность за один проход вперёд — даже генерируя при этом свои собственные дополнительные токены».

Нет потерь: крупные модели — например, 31-миллиардная плотная версия Gemma 4 — по-прежнему проверяют каждый токен, и качество вывода остается полностью таким же. Вы просто используете вычислительные мощности, которые простаивают при медленных участках.

Google сообщает, что модель эскизов делит кэш ключ-значение (KV-кэш) с целевой моделью — это структура памяти для хранения уже обработанного контекста, поэтому они не тратят время на повторное вычисление информации, уже известной крупной модели. Для небольших краевых моделей, разработанных специально для телефонов и устройств Raspberry Pi, команда даже создала эффективную технологию кластеризации для дальнейшего сокращения времени генерации.

Это не единственная попытка в области искусственного интеллекта, направленная на параллельное генерирование текста. Языковые модели на основе диффузии — например, Mercury от Inception Labs — используют совершенно иной подход: вместо предсказания одного токена за раз они начинают с шума и итеративно оптимизируют весь вывод. Теоретически они очень быстры, но по качеству языковые модели на основе диффузии пока не могут конкурировать с традиционными моделями Transformer, поэтому они воспринимаются скорее как объект исследований, чем как практический инструмент.

Специативное декодирование отличается тем, что полностью не изменяет базовую модель. Это оптимизация сервиса, а не замена архитектуры. Версия Gemma 4, которую вы изначально запускали, станет быстрее.

Фактический эффект действительно значительный. Согласно собственным тестам Google, включение MTP-черновика на чипе Gemma 4 26B с графическим процессором Nvidia RTX Pro 6000 привело к примерному удвоению обработки токенов в секунду. На чипах Apple Silicon пакетная обработка 4–8 запросов обеспечивает ускорение примерно в 2,2 раза. Хотя не во всех сценариях достигается предел в 3 раза, это всё равно существенная разница между «слегка пригодным» и «достаточно быстрым для практического использования».

Контекст здесь важен. Когда китайская модель DeepSeek потрясла рынок в январе 2025 года. — вызвав обесценивание капитализации NVIDIA на 600 миллиардов долларов за один день — главный урок заключается в том, что повышение эффективности оказывает большее влияние, чем простое увеличение вычислительных мощностей. Более умный способ работы превосходит простое увеличение вложений в оборудование. Инструмент визуализации MTP от Google — это еще один шаг в этом направлении, хотя его целевая аудитория четко определена как потребители.

Весь искусственный интеллект в настоящее время напоминает треугольник, состоящий из трех частей: вывода, обучения и памяти. Прорыв в любой из этих областей оказывает влияние на всю экосистему — либо стимулирует, либо подрывает её. Примером этого является метод обучения DeepSeek (создание мощных моделей на базовом оборудовании), а статья Google…TurboQuant (как уменьшить память ИИ без потери качества) — ещё один пример. Обе статьи привели к краху рынка, поскольку компании активно ищут способы реагирования.

Google заявила, что этот инструмент визуализации может «повысить скорость отклика: значительно снизить задержку в чатах в режиме близком к реальному времени, иммерсивных голосовых приложениях и рабочих процессах агентов» — задачи, для которых необходима низкая задержка, чтобы действительно работать.

Четко и быстро применяемые сценарии: локальный кодовый помощник без задержек; голосовой интерфейс, который отвечает, прежде чем вы успеете забыть, что спросили; интеллектуальные рабочие процессы, выполняющие шаги без ожидания в три секунды. Все это можно реализовать на вашем существующем оборудовании.

MTP草案现已上线拥抱脸，它们在Apache 2.0许可证下与Kaggle和Ollama兼容。它们开箱即用，支持vLLM、MLX、SGLang和Hugging Face Transformers。