Роками великі мовні моделі працювали як дуже швидкий машиніст: по одному слову, зліва направо, без повернення назад. DiffusionGemma повністю відкидає цей підхід. Відкрита модель використовує дифузійні техніки для одночасного створення цілих блоків тексту, досягаючи швидкості генерації до чотирьох разів швидшої, ніж традиційні авторегресивні моделі.
Як працює DiffusionGemma
Традиційні мовні моделі генерують текст послідовно. Кожен токен (приблизно слово або його фрагмент) створюється один за одним, причому кожен новий токен залежить від усього, що було до нього.
DiffusionGemma використовує ті самі методи, що й революціонізували генерацію зображень. Моделі дифузії працюють шляхом початку з шуму та ітеративного їхнього вдосконалення до когерентного виводу. У застосуванні до тексту це означає, що модель може працювати над кількома частинами відповіді одночасно, а не чекати, поки кожне слово буде завершено, перш ніж перейти до наступного.
У тестах DiffusionGemma досягнув швидкості вибірки приблизно 1 479 токенів за секунду. Це покращення швидкості у 4 рази — не теоретична межа. Це виміряний показник.
Оскільки дифузійні моделі покращують вихід ітеративно, а не фіксують кожен токен остаточно, DiffusionGemma може коригувати та виправляти помилки під час самого процесу генерації. Традиційні моделі такої можливості не мають. Однажді згенероване слово стає незмінним, і будь-які наступні помилки поширюються далі.
Апаратний аспект і зв’язок із Google DeepMind
DiffusionGemma отримав натхнення від Gemini Diffusion від Google DeepMind, який запровадив підходи на основі дифузії для ефективної генерації тексту.
DiffusionGemma спеціально оптимізований для платформ NVIDIA, включаючи RTX PRO та DGX, що дозволяє розробникам запускати модель локально з прискореною продуктивністю, а не залежати виключно від хмарних API.
Оцінки Benchmark показують, що DiffusionGemma виявляється порівнянною за продуктивністю з більшими моделями, зберігаючи при цьому свою перевагу у швидкості. Для порівняння: Gemini Diffusion набирає 30,9%, тоді як Gemini 2.0 Flash-Lite — 28,5% на оцінених тестах.
Що це означає для ландшафту ШІ та інвесторів
Для бізнесів, які залежать від швидкого генерування тексту, наслідки очевидні. Конвеєри створення контенту, автоматизація служби підтримки клієнтів, інструменти генерації коду та будь-які застосунки, де важлива затримка, можуть вигодувати від покращення швидкості в 4 рази. Більш швидке виведення також означає нижчі обчислювальні витрати на запит, що безпосередньо впливає на економіку масштабного розгортання ШІ.
Основний ризик — це прийняття. Модель може добре показувати результати у контролюваних тестах, але все ще матиме труднощі зі справжніми, непередбачуваними вимогами реального впровадження. Те, що вона відкрита й оптимізована для широко доступного обладнання NVIDIA, принаймні прибирає дві поширені перешкоди для перевірки.
