Inception Labs запускает Mercury 2 — высокоскоростную диффузионную языковую модель для крипто-dapp

На этой неделе Inception Labs потрясла рынок ИИ с Mercury 2 — новой «диффузионной» языковой моделью, которую компания позиционирует как самую быструю в мире LLM с высокой скоростью рассуждений. По результатам тестов и испытаний клиентов, ключевое преимущество Mercury 2 — высокая пропускная способность: примерно 1000 токенов в секунду против около 89 токенов/сек у Claude Haiku 4.5 от Anthropic и 71 токена/сек у GPT-5 Mini от OpenAI. Это помещает её в тот же высокоскоростной класс, что и DiffusionGemma от Google — добро пожаловать в то, что некоторые называют эрой диффузионных больших языковых моделей. Чем отличаются диффузионные модели: - Традиционные чат-боты генерируют текст по одному токену за раз, проверяя каждый шаг по мере продвижения. Диффузионные модели, напротив, инициализируют блок текста с шумовыми заполнителями и уточняют его за несколько параллельных проходов, пока не появится финальный ответ — техника, заимствованная у генераторов изображений, таких как Stable Diffusion. - Результат — значительно более высокая параллельная пропускная способность и более плавный «поток» в длительных сессиях: мгновенные автодополнения, более быстрые итерации кода или планов, а также субагенты, способные выполнять множество быстрых вспомогательных вызовов без замедления всей системы. Результаты тестов и прямые сравнения: - На AIME 2026 (основанном на реальных задачах American Invitational Mathematics Examination, оцениваемых как процент решённых задач) Mercury 2 показала результат 90%. Google’s DiffusionGemma набрала 69,1% на том же тесте, а стандартная (не диффузионная) Gemma 4 — 88,3%. - На GPQA — научном бенчмарке уровня PhD — разрыв сужается: Mercury 2 — 77% против 73,2% у DiffusionGemma. Сам Google рекомендует для задач, требующих максимального качества, использовать стандартную Gemma 4, отмечая, что DiffusionGemma уступает ей по всем показателям. Реальная производительность и стоимость: - Утверждения о скорости Mercury 2 — это не только лабораторные цифры. Компания Augment Code, разрабатывающая AI-агентов для кодирования, заменила Claude Opus 4.7 от Anthropic на Mercury 2 в субагенте для компактизации контекста и сообщила об снижении задержки на 82% и снижении стоимости на 90% при сохранении сопоставимого качества вывода (согласно совместному кейсу). Происхождение и финансирование: - Подход Inception основан на исследованиях диффузии, проведённых основателем Стефано Эрмоном, профессором Стэнфорда, соавтором ранних работ по score-based диффузии, использовавшихся в генерации изображений. Стартап привлёк финансирование в размере $50 млн от венчурного подразделения Nvidia и частных инвесторов Эндрю Нг и Андрея Карпати. Mercury 2 в настоящее время доступен через API/облако — веса модели не публичны. Практические ограничения и новая архитектура: - Диффузионные LLM отлично подходят для задач, где важны низкая задержка и высокая пропускная способность (реальное редактирование, множество мелких вспомогательных вызовов, голосовые интерфейсы и т.д.), но они не обязательно оптимальны для самых сложных задач логического рассуждения, где крупные автогрессивные модели могут сохранять преимущество. - Архитектурно ключевое изменение — переход к оркестрам специализированных субагентов (рассуждающих, суммаризаторов, маршрутизаторов, проверяющих). Последовательные модели, генерирующие токен за токеном, делают множество вспомогательных вызовов медленными и дорогими; параллельные диффузионные модели делают эти вызовы настолько дешёвыми, что их можно использовать свободно. - Экосистема ещё не успевает за развитием: локальные рантаймы, фреймворки агентов и другая инфраструктура должны созреть, чтобы сделать диффузионные модели бесшовными повсюду. Значение для криптовалют и web3: - Более быстрые и дешёвые LLM снижают барьеры для латентно-чувствительных сервисов на цепочке и вне её: - инструменты для разработчиков в реальном времени для написания смарт-контрактов и «vibe coding», синхронизированные с редактированием; - мультиагентные системы поддержки и боты для DAO, требующие множества быстрых подвызовов; - низколатентные голосовые или чат-интерфейсы для кошельков, dapp или операторов нод; - более низкие затраты на инференс для предварительной обработки оракулов, мониторинга и систем оповещений. - В масштабе более высокая пропускная способность на обычных GPU может привести к значительной экономии затрат и энергии для проектов, выполняющих множество AI-вызовов. Итог: Mercury 2 выводит диффузионные LLM в квадрант «быстро и хорошо», обеспечивая значительное снижение задержки и стоимости для задач с высокой пропускной способностью при сохранении конкурентного качества. Она не заменит все классы моделей, но для крипто-разработчиков и других инженеров, ориентированных на скорость, отзывчивость и мультиагентные системы, диффузионные модели вроде Mercury 2 открывают новые практические возможности — при условии, что сопутствующие инструменты и рантаймы успеют догнать.