数年間、大規模言語モデルは非常に速いタイプライターのように、一語ずつ左から右へ、振り返ることなく動作してきました。DiffusionGemmaはその従来の手法を完全に破棄します。このオープンモデルは、拡散技術を用いて、複数のテキストブロックを同時に生成し、従来の自己回帰モデルと比較して最大4倍の生成速度を実現します。
DiffusionGemmaが実際にどのように機能するか
従来の言語モデルは、テキストを順次生成します。各トークン(おおむね単語または単語の一部)は、前のすべてのトークンに依存しながら、一つずつ生成されます。
DiffusionGemmaは、画像生成を革新した同じ技術ファミリーを借入しています。ディフュージョンモデルは、ノイズから始めて段階的に一貫した出力に精錬する仕組みです。テキストに適用すると、このモデルは各単語が完了するのを待つことなく、レスポンスの複数の部分を同時に処理できます。
評価において、DiffusionGemmaは約1,479トークン/秒のサンプリング速度を達成しました。この4倍の速度向上は理論的な上限ではなく、実測されたベンチマークです。
ディフュージョンモデルは、各トークンを永久に固定するのではなく、出力を反復的に精緻化するため、DiffusionGemmaは生成プロセス中にエラーを調整し修正できます。従来のモデルにはこのような余裕はありません。一度単語が生成されると、それは固定され、その後のエラーは連鎖的に進行します。
ハードウェアの側面とGoogle DeepMindの関連
DiffusionGemmaは、Google DeepMindのGemini Diffusionからインスピレーションを得ており、これは効率的なテキスト生成における拡散ベースのアプローチを先駆けたものです。
DiffusionGemmaは、RTX PROおよびDGXシステムを含むNVIDIAプラットフォーム向けに最適化されており、開発者はクラウドAPIに依存するのではなく、ローカルで加速されたパフォーマンスでモデルを実行できます。
ベンチマーク評価によると、DiffusionGemmaはより大規模なモデルと比較可能な性能を発揮しながら、その速度の利点を維持しています。参考までに、Gemini Diffusionは評価ベンチマークで30.9%を記録し、Gemini 2.0 Flash-Liteは28.5%です。
これはAIの業界と投資家にとって何を意味するのか
高速なテキスト生成に依存するビジネスにとって、その影響は明確です。コンテンツ作成パイプライン、カスタマーサービスの自動化、コード生成ツール、そしてレイテンシーが重要なあらゆるアプリケーションが、4倍の速度向上の恩恵を受けられます。より高速な推論は、1回のクエリあたりの計算コストを削減し、スケールしてAIを導入する際の経済性に直接影響します。
主なリスクは採用である。モデルは制御された評価では優れたベンチマークを示しても、現実の展開における雑多で予測不可能な要求に苦戦する可能性がある。このモデルがオープンであり、広く利用可能なNVIDIAハードウェア向けに最適化されているという事実は、少なくとも二つの一般的な障壁を除去している。
