В течение многих лет крупные языковые модели работали как очень быстрый печатник: по одному слову за раз, слева направо, без возврата. DiffusionGemma полностью отвергает этот подход. Открытая модель использует методы диффузии для одновременной генерации полных блоков текста, достигая скорости генерации до четырех раз быстрее, чем традиционные авторегрессивные модели.
Как на самом деле работает DiffusionGemma
Традиционные языковые модели генерируют текст последовательно. Каждый токен (приблизительно слово или его часть) создается один за другим, причем каждый новый токен зависит от всего, что предшествовало ему.
DiffusionGemma использует ту же семью методов, которые революционизировали генерацию изображений. Модели диффузии работают, начиная с шума и итеративно уточняя его до получения связного результата. Применительно к тексту это означает, что модель может одновременно работать над несколькими частями ответа, а не ждать завершения каждого слова перед переходом к следующему.
В оценках DiffusionGemma достигнута скорость выборки около 1 479 токенов в секунду. Это ускорение в 4 раза — не теоретический предел, а измеренный показатель.
Поскольку диффузионные модели улучшают вывод итеративно, а не фиксируют каждый токен окончательно, DiffusionGemma может корректировать и исправлять ошибки в процессе генерации. Традиционные модели такой возможности не имеют: как только слово сгенерировано, оно становится неизменным, и любые последующие ошибки накапливаются.
Аппаратный аспект и связь с Google DeepMind
DiffusionGemma вдохновлена Gemini Diffusion от Google DeepMind, которая первой применила диффузионные подходы для эффективной генерации текста.
DiffusionGemma специально оптимизирован для платформ NVIDIA, включая RTX PRO и системы DGX, что позволяет разработчикам запускать модель локально с ускоренной производительностью, а не полагаться исключительно на облачные API.
Оценки по эталонным наборам данных показывают, что DiffusionGemma демонстрирует сопоставимую производительность с более крупными моделями, сохраняя при этом свое преимущество в скорости. Для сравнения: Gemini Diffusion набрала 30,9%, в то время как Gemini 2.0 Flash-Lite — 28,5% на оцениваемых эталонных наборах данных.
Что это означает для ландшафта ИИ и инвесторов
Для бизнесов, зависящих от быстрой генерации текста, последствия очевидны. Конвейеры создания контента, автоматизация службы поддержки, инструменты генерации кода и любые приложения, где важна задержка, могут получить выгоду от ускорения в 4 раза. Более быстрая инференция означает更低ую вычислительную стоимость на запрос, что напрямую влияет на экономическую эффективность масштабного развертывания ИИ.
Основной риск — это внедрение. Модель может хорошо показывать результаты в контролируемых тестах, но всё равно испытывать трудности с неоднозначными и непредсказуемыми требованиями реального развертывания. То, что она открыта и оптимизирована для широко доступного оборудования NVIDIA, по крайней мере устраняет две распространённые преграды для проверки.
