Google представила локальне виведення ШІ втричі швидше без нової апаратної частини

CoinDesk повідомляє:

Запуск моделей штучного інтелекту на власному комп’ютері — це добре, але не завжди.

Забезпечує конфіденційність, без абонентської плати та дані не залишають ваш пристрій. Але для більшості людей на практиці курсор миготить п’ять секунд між реченнями.

Цей обмежуючий фактор має назву: швидкість виведення. Він не пов’язаний з рівнем інтелекту моделі, а є проблемою апаратного забезпечення. Стандартні AI-моделі генерують по одному фрагменту слова (відомому як «токен»), і апаратне забезпечення має передавати мільярди параметрів з пам’яті до обчислювальних одиниць для генерації кожного токена. Сама ця архітектура дуже повільна. На споживчому апаратному забезпеченні це просто непереносимо.

Більшість людей використовують обхідні шляхи, такі як запуск моделей меншого розміру та нижчої продуктивності або високо стиснених версій, відомих як квантовані моделі. Обидва варіанти не ідеальні — обидва жертвують якістю на користь швидкості. Хоча вони працюють, це не та модель, яку ви справді хочете.

Зараз Google запропонувала інший підхід. Компанія недавно опублікувала чернетку багатотокенних прогнозів (MTP) для своєї технології відкритих моделей Gemma 4 Family — ця технологія дозволяє досягти прискорення до 3 разів без будь-якого впливу на якість моделі або її здатність до висновків.

Цей підхід називається спекулятивним декодуванням, і його концепція існує вже багато років. Дослідники Google опублікували фундаментальну статтю ще в 2022 році. Лише зараз ця ідея поступово отримує широке прийняття, оскільки для масштабного застосування потрібна відповідна архітектура.

Просто кажучи, це працює так: замість того щоб покладатися на потужну велику модель для виконання всієї роботи, її поєднують з невеликою «прогнозуючою» моделлю. Прогнозуюча модель швидка і недорога — вона може одночасно прогнозувати кілька токенів за час, менший, ніж потрібен основній моделі для генерації одного токена. Потім велика модель перевіряє всі ці прогнози лише за одну ітерацію. Якщо прогнози вірні, то повний послідовність отримується за вартість лише однієї прямої ітерації.

За словами Google «Якщо цільова модель погоджується з цим проектом, вона приймає весь послідовність за один прямий прохід — навіть генеруючи власні додаткові токени в процесі».

Жодних втрат: великі моделі — наприклад, 31 мільярдний щільний варіант Gemma 4 — все ще перевіряють кожен токен, і якість виводу залишається повністю однаковою. Ви просто використовуєте обчислювальні ресурси, які залишаються невикористаними під час повільних частин.

Google зазначає, що модель скетчування ділиться кешем ключ-значення (KV-кеш) з цільовою моделлю — це структура пам’яті, яка зберігає вже оброблений контекст, тому вони не витрачають час на повторне обчислення інформації, відомої великої моделі. Для невеликих крайових моделей, розроблених для смартфонів та пристроїв Raspberry Pi, команда навіть розробила ефективну технологію кластеризації, щоб ще більше скоротити час генерації.

Це не єдина спроба галузі штучного інтелекту щодо паралелізації генерації тексту. Мовні моделі на основі дифузії — наприклад, Mercury від Inception Labs — використовують зовсім інший підхід: вони не передбачають один токен за раз, а починають з шуму та ітеративно оптимізують весь вихід. Теоретично це швидко, але мовні моделі на основі дифузії важко порівняти за якістю з традиційними моделями Transformer, тому вони більше сприймаються як об’єкт дослідження, ніж як практичний інструмент.

Прогнозування з декодуванням відрізняється тим, що повністю не змінює базову модель. Це оптимізація сервісу, а не заміна архітектури. Версія Gemma 4, яку ви раніше використовували, стане швидшою.

Ефект на практиці дійсно значний. За власними тестами Google, увімкнення MTP-проекту на чіпі Gemma 4 26B з Nvidia RTX Pro 6000 desktop GPU призвело до приблизного подвоєння кількості токенів на секунду. На чіпах Apple Silicon пакетне опрацювання 4–8 запитів забезпечує приблизно 2,2-кратне прискорення. Хоча не у всіх сценаріях досягається ліміт у 3 рази, це все ж є значною різницею між «майже придатним» і «достатньо швидким для практичного використання».

Контекст важливий. Коли китайська модель DeepSeek у січні 2025 року вразила ринок — за один день призвівши до зникнення 600 мільярдів доларів США з ринкової капіталізації NVIDIA — головний урок полягав у тому, що підвищення ефективності має більший вплив, ніж просто збільшення обчислювальних потужностей. Більш розумний спосіб роботи переважає над простим збільшенням інвестицій у обладнання. Інструмент MTP від Google — це ще один крок у цьому напрямку, хоча його цільова аудиторія чітко орієнтована на споживачів.

Вся галузь штучного інтелекту наразі подібна до трикутника, що складається з трьох частин: висновку, навчання та пам’яті. Будь-який прорив у будь-якій з цих сфер впливає на всю екосистему. Прикладом є метод навчання DeepSeek (використання недорогого обладнання для створення потужних моделей), а стаття Google…TurboQuant (як зменшити пам’ять штучного інтелекту, не знижуючи якості) — це ще один приклад. Обидві статті призвели до ринкового краху, оскільки компанії намагалися знайти відповідні рішення.

Google зазначає, що цей інструмент малювання може «підвищити швидкість відповіді: значно зменшити затримку для чатів у майже реальному часі, іммерсивних голосових додатків та робочих процесів агентів» — завдань, для яких низька затримка необхідна для справжнього функціонування.

Швидко й чітко застосування: місцевий асистент з кодом без затримок; голосовий інтерфейс, який відповідає, перш ніж ви забудете, що запитували; розумний робочий процес, який виконує кроки без очікування три секунди. Все це можливо на вашій вже наявній апаратній платформі.

MTP-проект тепер доступний обійми Вони сумісні з Apache 2.0, Kaggle та Ollama. Вони працюють «з коробки» з vLLM, MLX, SGLang та Hugging Face Transformers.