自分のコンピューターでAIモデルを実行するのは確かに良いことですが、常にそうとは限りません。
プライバシー保護を約束し、サブスクリプション料は不要で、データはあなたのデバイスから出ません。しかし、多くの人にとって現実は、文と文の間にカーソルが5秒間点滅することです。
このボトルネックには名前があります:推論速度です。これはモデルの知能の程度とは関係なく、ハードウェアの問題です。標準的なAIモデルは、1つの単語の断片(「トークン」と呼ばれます)を生成するたびに、ハードウェアが数十億のパラメータをメモリから計算ユニットに転送する必要があります。この設計自体が非常に遅いのです。消費者向けハードウェアでは、これは耐え難いほどです。
多くの人が採用する回避策は、規模が小さく性能が低いモデルを実行するか、量子化モデルと呼ばれる高度に圧縮されたバージョンを実行することです。どちらの方法も完璧ではなく、速度を犠牲にして品質を損なっています。実行は可能ですが、本当に望んでいるモデルではありません。
現在、Googleは異なるアプローチを提案しています。同社は、Gemma 4 ファミリーオープンモデル技術用のマルチトークン予測(MTP)ドラフトを発表しました。この技術により、モデルの品質や推論能力に一切影響を与えることなく、最大3倍の速度向上が実現できます。
この方法は推測的デコードと呼ばれ、その概念は長年存在してきました。Googleの研究者は2022年には既に基盤となる論文を発表しています。しかし、大規模に実行するには適切なアーキテクチャが必要であるため、このアイデアは最近になってようやく主流に受け入れられるようになりました。
簡単に言えば、この仕組みは、強力な大規模モデルがすべてを単独で処理するのではなく、小型の「予測子」モデルと組み合わせて動作します。予測子モデルは高速でコストが低く、複数のトークンを一度に予測でき、その所要時間はメインモデルが1つのトークンを生成するよりも短いです。その後、大規模モデルは1回の処理でこれらのすべての予測を検証します。予測が正しい場合、完全なシーケンスを得るためのコストは1回のフォワードパスのみで済みます。
Googleによると「ターゲットモデルがこの草案に同意する場合、それは1回のフォワードパスで全体のシーケンスを受け入れ、その過程で独自の追加トークンを生成します。」
損失なし:Gemma 4 の310億パラメータ密接バージョンなどの大規模モデルは、すべてのトークンを依然として検証し、出力品質も完全に同じです。あなたは、遅い部分でアイドル状態になっている計算能力を活用しているだけです。
Googleは、スケッチモデルとターゲットモデルがキー値キャッシュ(KVキャッシュ)を共有していると述べています。これは、処理済みのコンテキストを格納するメモリ構造であり、両者は既に大規模モデルが知っている情報を再計算する時間を無駄にしません。スマートフォンやラズベリーパイ用に設計された小型エッジモデルの場合、チームは生成時間をさらに短縮するために、効率的なクラスタリング技術を構築しました。
これは、並列テキスト生成におけるAI分野の唯一の試みではない。拡散言語モデル——たとえばInception LabsのMercury——は、まったく異なるアプローチを採用している:1つのトークンを一度に予測するのではなく、ノイズから始めて出力を反復的に最適化する。理論的には高速だが、拡散言語モデルは品質面で従来のTransformerモデルに劣り、実用的なツールというよりは主に研究対象とされている。
推測的デコードが異なるのは、それがベースモデルを一切変更しないからです。これはアーキテクチャの置き換えではなく、サービスの最適化です。元々実行していたGemma 4バージョンがより速くなります。
実際の効果は確かに顕著です。Google自身のベンチマークによると、Nvidia RTX Pro 6000 デスクトップGPUを搭載したGemma 4 26BチップでMTPドラフトを有効にすると、毎秒のトークン処理量が約2倍になります。Apple Siliconチップでは、4〜8つのリクエストのバッチサイズにより、約2.2倍の速度向上が得られます。すべてのシナリオで3倍の上限に達するわけではありませんが、これは「やっと使える」レベルと「実用的な速度」の間で顕著な差です。
文脈が重要です。中国モデルDeepSeekが2025年1月に市場を震撼させました。——1日でナビダの時価総額を6,000億ドル減らした——その核心的な教訓は、計算能力の単純な向上よりも効率の向上の方がより大きな影響を持つということです。より賢い実行方法が、ハードウェアへの投資をただ増やすよりも優れています。グーグルのMTPマッピングツールは、この方向へのさらに一歩であり、そのターゲット層は明確に消費者です。
現在の人工知能業界全体は、推論、学習、記憶の3つの部分からなる三角形のようである。どの分野でも突破が起きれば、エコシステム全体に影響を与える。DeepSeekの学習方法(低コストのハードウェアを用いて強力なモデルを構築する)がその一例であり、Googleの…TurboQuant(品質を落とすことなく人工知能のメモリを縮小する方法)がもう一つの論文である。これらの2つの論文は、各企業が対応策を探る中で市場を混乱させた。
Googleは、この描画ツールが「応答速度を向上させます:リアルタイムチャット、没入型音声アプリケーション、エージェントワークフローの遅延を大幅に削減します」と述べています。これらのタスクは、低遅延がなければ真に機能しません。
使用シーンが即座に明確です:遅延のないローカルコードアシスタント;質問した内容を忘れる前に応答する音声インターフェース;3秒待たずにステップを完了するスマートワークフロー。これらすべてを、すでにご所有のハードウェアで実現できます。
MTP ドラフトがリリースされました拥抱脸これらは Apache 2.0 ライセンス下で Kaggle および Ollama と互換性があります。vLLM、MLX、SGLang、Hugging Face Transformers に対応しています。
