Inception Labs запускає Mercury 2 — високoshвидкісний дифузійний LLM для крипто-dApp

Цього тижня Inception Labs змінила гонку в сфері ШІ за допомогою Mercury 2 — нового «дифузійного» мовного моделю, який компанія позиціонує як найшвидшу на світі LLM з логічним міркуванням. У тестах на ефективність і за участю клієнтів головна перевага Mercury 2 — висока пропускна здатність: приблизно 1000 токенів за секунду порівняно з 89 токенів/сек у Claude Haiku 4.5 від Anthropic і 71 токенів/сек у GPT-5 Mini від OpenAI. Це ставить його в той самий високоскоростний клас, який Google пізніше пов’язала зі своїм DiffusionGemma — ласкаво просимо до того, що деякі називають епохою дифузії великих мовних моделей. Що робить дифузійні моделі інакше: - Традиційні чат-боти генерують текст по одному токену за раз, перевіряючи кожен крок по черзі. Дифузійні моделі, навпаки, ініціалізують блок тексту з шумовими заповнювачами та покращують цей блок за кілька паралельних проходів, поки не з’явиться фінальна відповідь — техніка, запозичена з генераторів зображень, таких як Stable Diffusion. - Результат — значно вища паралельна пропускна здатність і швидший «потік» під час довгих сесій: миттєвий автозаповнення, швидші ітерації коду чи планів, а також субагенти, які можуть виконувати багато швидких корисних викликів, не заважаючи всій системі. Тести та прямі порівняння: - На AIME 2026 (на основі справжніх завдань American Invitational Mathematics Examination, оцінених як відсоток розв’язаних) Mercury 2 показав 90%. Google’s DiffusionGemma набрав 69,1% на тому ж тесті, тоді як стандартна (не дифузійна) Gemma 4 — 88,3%. - На GPQA — науковому бенчмарку рівня PhD — розрив зменшується: Mercury 2 — 77% проти 73,2% у DiffusionGemma. Сама Google рекомендує стандартну Gemma 4 для застосунків, де потрібна абсолютна найвища якість, зазначаючи, що DiffusionGemma поступається їй у всьому. Практична продуктивність і витрати: - Претензії Mercury 2 щодо швидкості — це не лише лабораторні цифри. Augment Code, компанія з AI-агентами для кодування, замінила Claude Opus 4.7 від Anthropic на Mercury 2 у субагенті для стиснення контексту і повідомила про зниження затримки на 82% і зменшення витрат на 90%, зберігаючи порівнянну якість виводу (за спільним кейс-стаді). Походження та фінансування: - Підхід Inception базується на дослідженнях дифузії засновника Стефано Ермон, професора Стенфорду, який сприяв розробці ранніх робіт з score-based дифузією, використаних у генерації зображень. Стартап здобув фінансування в розмірі $50 млн від венчурного підрозділу Nvidia та окремих інвесторів Андрю Нга та Андрея Карпати. Mercury 2 зараз доступний через API/хмару — ваги моделі не є публічними. Практичні обмеження та нова архітектура: - Дифузійні LLM добре працюють там, де важливими є затримка та висока пропускна здатність (реальний час редагування, багато малих корисних викликів, голосовий інтерфейс тощо), але вони не обов’язково найкращий вибір для найскладніших завдань логічного мислення, де більші автогенеративні моделі можуть все ще мати перевагу. - Архитектурно великий зсув полягає у переході до оркестрів спецалізованих субагентів (мислителi, сумаризатори, маршрутизатори, перевiрники). Послiдовнi моделi по токену роблять багато корисних викликiв повiльними й дорогими; паралельнi дифузiйнi моделi роблять цi виклики настiльки дешевими, що їх можна використовувати без обмежень. - Екосистема ще не дозрiла: локальнi рантайми, фреймворки агентiв та інша інфраструктура потребують дозрiвання, щоб зробити дифузiйнi моделi безперебiйними скрiзь. Чому це важливо для криптовалют та web3: - Швидшi й дешевшi LLM знижують бар’єри для сервiсiв, чутливих до затримки — як на ланцюгу, так і поза ним: - інструменти для розробникiв у реальному часi для кодування смартконтрактiв та “vibe coding”, що встигають за редагуваннями; - багатоагентнi системи пiдтримки та боти для DAO, яким потрiбнi багато швидких суб-викликiв; - низькозатримковi голосовi чи чат-интерфейси для гаманцiв, dapp або операторiв нод у режимi онлайн; - меншi витрати на інференс для попередньої обробки оракулiв, монiторингу та систем попереджень. - У масштабах висока пропускна здатнiсть на комп’ютерах з комерцiйними GPU може перетворитися на значну економiю витрат та енергiї для проектiв, якi роблять багато AI-викликiв. Практичний підсумок: Mercury 2 переносить дифузiйнi LLM у квадрант «швидко й добре», забезпечуючи драматичне зниження затримки й витрат для завдань із високою пропускною здатнiстю, зберiгаючи конкурентну якiсть. Вона не замiнить кожен клас моделей, але для крипто-розробникiв та інших розробникiв, якi зосередженi на швидкостi, вiдповiдностi й багатоагентних системах, дифузiйнi моделi на кшталт Mercury 2 вiдкривають новi практичнi можливостi — за умови, що супутнє програмне забезпечення й рантайми наздоженуть.