Inception Labs、Crypto DApp用の高速ディフュージョンLLM「Mercury 2」をリリース

今週、Inception Labsは「Mercury 2」という新しい「diffusion」言語モデルを発表し、これを世界で最も高速な推論LLMと位置づけ、AI競争に大きな影響を与えた。ベンチマークおよび顧客テストにおいて、Mercury 2の最大の特徴は純粋なスループット：約1,000トークン/秒に対し、AnthropicのClaude Haiku 4.5 Reasoningは約89トークン/秒、OpenAIのGPT-5 Miniは71トークン/秒である。これは、Googleが後日自社のDiffusionGemmaと関連付けた高速帯域に正確に位置づけられる——まさに一部の人々が「diffusion時代」と呼ぶ大規模言語モデルの新時代への招待状である。 diffusionモデルが異なる点 - 伝統的なチャットボットは1トークンずつテキストを生成し、各ステップを確認しながら進む。一方、diffusionモデルはノイズを含むプレースホルダートークンでテキストのブロックを初期化し、複数の並列パスでそのブロックを精緻化し、最終的な回答を導き出す——これはStable Diffusionなどの画像生成モデルから借用された手法である。 - 結果として、並列スループットが大幅に向上し、長時間のセッションでもよりスムーズな「流れ」が実現：即時オートコンプリート、コードや計画の高速反復、システム全体のパフォーマンスを低下させることなく多数の迅速なユーティリティコールを実行できるサブエージェントが可能になる。ベンチマークと直接比較 - AIME 2026（実際のアメリカ数学招へい試験の問題に基づき、解決率パーセントで評価）では、Mercury 2は90%を記録。GoogleのDiffusionGemmaは同じテストで69.1%、標準的な（diffusionではない）Gemma 4は88.3%だった。 - PhDレベルの科学ベンチマークであるGPQAでは差が縮まる：Mercury 2は77%、DiffusionGemmaは73.2%。Google自身のガイドラインでは、絶対的な最高品質が必要なアプリケーションには標準的なGemma 4を推奨しており、DiffusionGemmaはすべての指標でそれを下回ると指摘している。実世界でのパフォーマンスとコスト - Mercury 2の高速性は実験室数値にとどまらない。AIコーディングエージェント企業であるAugment Codeは、コンテキスト圧縮サブエージェントにAnthropicのClaude Opus 4.7の代わりにMercury 2を導入し、遅延が82%低下し、コストが90%削減されたことを報告（共同ケーススタディによる）。出力品質は同等だった。起源と資金調達 - Inceptionのアプローチは、創設者であるスタンフォード大学教授Stefano Ermonが画像生成に用いられた初期のスコアベースdiffusion研究に貢献した成果を基盤としている。同社はNvidiaのベンチャーアームおよび個人投資家であるAndrew NgとAndrej Karpathyからの支援を受け、5,000万ドルの資金調達を実施。現在Mercury 2はAPI/クラウド経由で利用可能だが、モデル重みは公開されていない。実用上の注意点と新しいアーキテクチャ - diffusion LLMは遅延と高ボリュームスループットが重要な場面（リアルタイム編集、多数の小さなユーティリティコール、音声インターフェースなど）で優れた性能を発揮するが、最も困難な推論タスクには必ずしも最適ではなく、より大きな自己回帰モデルが依然として優位性を持つ可能性がある。 - アーキテクチャ的には、大きな変化は専門化されたサブエージェント（推論者、要約者、ルーター、チェック担当者）のオーケストラへの移行である。逐次トークン単位モデルでは多くのユーティリティコールが遅く高コストだが、並列diffusionモデルではそれらのコールが十分に安価になり、自由に使用できるようになる。 - エコシステムはまだ追いついていない：ローカルランタイム、エージェントフレームワーク、その他のインフラストラクチャが成熟し、diffusionモデルをあらゆる場所でシームレスに利用できるようになる必要がある。暗号通貨とWeb3への影響 - より高速で安価なLLMは、遅延に敏感なオンチェーンおよびオフチェーンサービスの摩擦を低減する： - エディットに追従するスマートコントラクトコーディングや「vibe coding」向けリアルタイム開発ツール； - 多数の迅速なサブコールを必要とするDAO向けマルチエージェント支援システムおよびボット； - ウォレット、DApp、オンコールノードオペレーター向け低遅延音声またはチャットインターフェース； - オラクルの前処理、監視、アラートパイプラインにおける推論コストの削減。 - 大規模化すれば、汎用GPUでの高スループットは多数のAIコールを実行するプロジェクトにとって意味のあるコストおよびエネルギー削減につながる。結論 Mercury 2はdiffusion LLMを「高速かつ良質」の領域へと押し上げ、高スループットタスクにおいて劇的な遅延とコスト改善を実現しつつ競争力のある品質を維持している。すべてのモデルクラスを置き換えるわけではないが、速度・応答性・マルチエージェントシステムに焦点を当てる暗号通貨開発者や他の開発者にとって、Mercury 2のようなdiffusionモデルは新たな実用的可能性を開く——ただし周辺ツールやランタイムが追いつくことが前提である。