文 | 字母AI
メーデー休暇の前日、DeepSeekが突然、ビジュアルマルチモーダル技術レポートを発表した。
開く前は、どれだけ遠くまで見えるか、どれだけ明確に見えるかという予想はありました。
過去1年間、マルチモーダルモデルは基本的にこの方向に競争してきました。OpenAIは「画像による思考」を提唱し、モデルが推論中に画像を切り取り、拡大、回転できるようにしました。GeminiやClaudeも、より高解像度でより複雑な視覚入力をモデルが処理できるように工夫しています。
人々の共通の仮定は、モデルがより細かく見れば、視覚的推論が自然に強化されるということである。
しかし、DeepSeekのこのレポートを読むと、彼らがまったく別の道を歩んでいることがわかります。
DeepSeekは「モデルにより多くのピクセルを見せる」ことに重点を置かず、より基本的な問題に注目しました。
モデルがすでに見ているとしても、推論の過程でどのようにしてモデルがあなたが指しているものと同じものを指していると保証できますか?
これはマルチモーダル推論で最も見落とされがちな死点です。
人間が画像を見ると、指で対象を示すことができる。たとえば「この人は誰々だ」、「あの人のは誰々だ」など。しかし、モデルはあなたが言っているこの対象がどれなのか、どうやってわかるのか?
モデルは言語で「左側のもの」「上のもの」「この線」としか言えません。画面が複雑になると、言語による指摘がずれ、推論も崩れます。
そこでDeepSeekは、「モデルに一本の『指』を与えればいいじゃないか」と言いました。
それは点とバウンディングボックスをモデルの思考における基本単位に変換し、モデルがこのサイバーフィンガーで対象を指しながら推論できるようにします。
01 連続的視覚から離散的記号へ
DeepSeekはこの技術レポートで、興味深い質問を提起しています。彼らは、マルチモーダルモデルの真正な難点は画像を「見る」ことではなく、連続的な推論の過程で同じ視覚的対象を安定して指し示すことであると考えています。
たとえば、友達に「市場で、張おばあさんの店の野菜が一番新鮮だ」と言うとします。でも市場にはおじいさんやおばあさんがたくさんいて、一体誰が張おばあさんなのかわかりません。
しかし、あなたが指を差して「それがそれだ」と言えば、友達はすぐに理解するでしょう。
DeepSeekはこの問題を「リファレンスギャップ」と名付けました。
過去1年間、ほぼすべての最先端のマルチモーダルモデルが「知覚のギャップ」(Perception Gap)という問題を解決しようとしてきました。
もし前に写真が置かれているとしたら、写真がぼやけていて解像度が低ければ、中の小さな文字や遠くの細部が読み取れないかもしれません。AIも同様で、入力される画像の品質が十分でなかったり、処理方法が適切でなかったりすると、「見えていない」という状態になります。これが知覚のギャップです。
GPT、Claude、Geminiこれらのモデルは、解像度を継続的に向上させ、高解像度のクロッピング、動的ブロッキング、マルチスケール処理を導入することで、モデルがより多くの詳細を確認できるようにしています。
この方向にはもちろん価値がありますが、DeepSeekのレポートでは、モデルがどれほど明確に見ても、複雑な空間的推論タスクでは依然として論理的崩壊が発生すると指摘されています。
問題は自然言語そのものにあります。
写真には十数匹の犬がいますが、「左側の犬」と言うと、モデルは具体的にどの犬を指しているのか理解できません。
さらに極端なことに、モデルに写真内の犬の数を数えるように指示すると、推論中にすでに数えた犬とまだ数えていない犬を区別できなくなることがあります。
報告には、迷宮のナビゲーションのような極端な状況も言及されており、純粋な言語では不規則な形状のパスや複雑なトポロジー関係を正確に記述することはできない。
言語は指し示すための道具として、連続した視覚的空間において本質的に曖昧である。言語は抽象的概念や因果関係には優れるが、空間的な位置やトポロジー的関係においては、その表現力に根本的な限界を持つ。
DeepSeek自体が汎用言語モデルであるなら、どのように対処すべきでしょうか?
そして、記事の冒頭で言及されたこの「指」が生まれました。
彼らが提唱した核心的概念は「視覚基元」(Visual Primitives)であり、具体的には、コンピュータビジョンにおける最も基本的な空間マーカーであるバウンディングボックス(bounding boxes)とポイント(points)を「思考の最小単位」として昇格させることである。
以前のマルチモーダルモデルは、物体にボックスを描画することもできましたが、最終的に「見つけました」という結果だけを提示するだけで、解き方のプロセスを示さなかったのです。試験で、答えだけを提出して、解法の過程を書かないのと同じです。
一部の研究では、AIが思考プロセス中に枠を描くことがありますが、その目的はあくまで「より正確に見る」ためであり、枠はあくまで補助ツールにすぎません。これは数学の問題を解くときに下書き用紙を使うのと同じで、下書き用紙は計算をより明確にするためのものであり、解法の一部ではありません。
DeepSeekがやろうとしていることはまったく異なります。
彼らはこれらのスペースマーカーをモデルの推論プロセスに直接組み込み、推論の有機的な構成要素としています。モデルは思考する際に、「私は犬を見ました」と言語で説明するだけでなく、同時に「私は犬を見ました。それはここにあります:[[x1,y1,x2,y2]]」と出力します。
このメカニズムはDeepSeekによって「推論しながら指す」(point while it reasons)と呼ばれています。

モデルの各ステップの思考は、画像の具体的な座標に锚定されています。
技術レポートには、モデルがスタート地点から出発し、探索と後戻りを繰り返して最終的に迷宮内の各ポイントに対応する一連の完全な座標パスを出力するという例が示されています。
これにより、モデルは推論中に「迷子」になることがなくなります。自分が何を言っているのか、何を指しているのかを混乱することはありません。各視覚オブジェクトに明確な空間的アンカーが与えられ、推論プロセスは追跡可能で検証可能になります。
この技術路線はOpenAIの方向性と興味深い対比を形成している。
OpenAIはo3およびo4-miniの公式説明で、「画像を用いた思考」という概念を明確に言及しており、モデルは画像を推論チェーンに組み込み、切り取り、拡大、回転などの方法で画像を処理できる。この方向性の重点は、画像自体を推論チェーンの一部とすることであり、モデルは推論プロセス中に新しい画像を生成したり、画像を変更したり、画像を操作したりできる。
OpenAIのロードマップは、汎用能力を重視しており、ビジュアル、コード、検索、ファイル、ツール呼び出しが協調して動作します。モデルは強力な「ビジュアルワークベンチ」を備えており、さまざまなビジュアルタスクを柔軟に処理できます。
DeepSeekのアプローチはもう少し「シンボリック」です。座標を思考チェーンに取り込み、モデルは推論テキスト内で境界ボックスと点の座標を明示的に書き出し、視覚的オブジェクトを推論時に再利用可能なアンカーに変換します。
これにより、OpenAIの視覚的推論は内部で行われ、ユーザーは最終的な回答と必要な説明のみを確認でき、中間の視覚処理プロセスはブラックボックスとなります。一方、DeepSeekは意図的に中間の視覚的アンカーを明示的に表示し、推論プロセスを完全に透明にしています。
DeepSeekがこれを行うことの利点は、推論プロセスをより簡単に学習、チェック、スコアリングできることです。これにより、フォーマット、品質、タスクレベルの報酬を設計しやすくなります。特に迷宮や経路追跡のようなタスクでは、経路の正当性やトラジェクトリのカバレッジなど、より細かいフィードバックを提供できます。
モデルは正しい答えを出力するだけでなく、視覚的プリミティブを用いて推論する方法を学びました。
02 効率が核心である
DeepSeekのこのレポートには、見過ごされがちだが極めて重要な詳細がある。彼らのモデルは画像を処理する際に、他の最先端モデルに比べてはるかに少ないトークン数を使用している。
レポートには、800×800解像度の画像を処理する際に各モデルが消費するトークン数を比較した図が含まれています。
Gemini-3-Flashは約1100個、Claude-Sonnet-4.6は約870個、GPT-5.4は約740個、Qwen3-VLは約660個、DeepSeekは約361個であり、KVキャッシュには約90個のエントリのみ保持されます。
この差はわずかではありません。DeepSeekが使用するトークン数はGeminiの3分の1に過ぎず、KVキャッシュエントリは約10分の1です。
この極限の効率はどのように実現されているのでしょうか?
DeepSeekは「圧縮スパースアテンション」(Compressed Sparse Attention, CSA)というメカニズムを使用しています。
たとえば、友達に家族写真を見せるとき、あなたは「左から237番目のピクセルから赤い領域が始まります……」とは言わず、「左が母で、右が父です」と言います。
DeepSeek-ViTはまず画像をより少ないビジュアルトークンに圧縮し、CSAはこれらのビジュアルトークンのKVキャッシュ内の表現をさらに圧縮します。
このメカニズムはDeepSeek-V4-Flashモデルで既に使用されており、現在はビジュアルマルチモーダルに適用されています。
具体的圧縮プロセスは以下の通りです。756×756の画像は571536個のピクセルを含み、これらのピクセルはまずViTによって14×14のパッチサイズで分割され、2916個のパッチトークンが生成されます。次に、3×3の空間圧縮が行われ、隣接する9つのトークンがチャネル次元に沿って1つのトークンに圧縮され、324個のビジュアルトークンになります。
この324個のトークンは大規模言語モデルにプリフィルリングされます。最後に、CSAメカニズムはこれらのビジュアルトークンをKVキャッシュ内でさらに4倍圧縮し、最終的に81個のエントリのみを保持します。
571536個のピクセルから81個のKVキャッシュエントリへと、圧縮比は合計で7056倍になりました。
一般的AI大手企業は計算リソースを力ずくで積み上げていますが、DeepSeekは情報理論のレベルで選別を行い、最も直感的で理解しやすい情報のみを残しています。
その最も直接的な結果は、推論速度が大幅に向上したことです。
画像トークンの数はモデルの推論遅延に直接影響します。自己回帰生成プロセスでは、新しいトークンを生成するたびに、モデルは以前のすべてのトークンのKVキャッシュに対してアテンション計算を実行します。画像が1000個のトークンを占める場合、毎回この1000個のトークンに対してアテンション計算が行われます。一方、90個しか占めない場合、計算量は大幅に減少します。
リアルタイム応答を必要とするアプリケーション、例えばロボットビジョン、自動運転、リアルタイム動画分析において、推論速度の向上が決定的な役割を果たしています。
そしてメモリ使用量も少ないです。
KVキャッシュは大規模モデルの推論におけるメモリボトルネックです。特に長文コンテキストやバッチ推論を処理する際、KVキャッシュは大量のVRAMを占有します。DeepSeekはビジュアルトークンのKVキャッシュを90個のエントリに圧縮することで、同じハードウェアでより多くの画像を処理したり、より長いマルチラウンドの対話に対応できるようになります。
これは実際のデプロイにとって非常に重要です。多くの企業のマルチモーダルモデルはラボ環境では優れた性能を発揮しますが、実際のデプロイではコストの問題に直面します。1枚の画像あたり消費されるトークン数が増えるほど、推論コストが上昇し、サポート可能な並列ユーザー数が減少します。DeepSeekの効率性の利点は、スケールアップ時のデプロイでより顕著になります。
また、モデルのコンテキスト容量を間接的に向上させました。
一枚の画像が1000のトークンを占有する場合、128kのコンテキストウィンドウには100枚余りの画像しか格納できません。一方、300のトークンしか占有しない場合、400枚以上格納可能です。これは、複数の画像を扱う対話、長時間の動画分析、大量のドキュメント理解が必要なシナリオにとって極めて重要です。
DeepSeekのモデルは、1つの会話で複数の画像を処理でき、数十枚から数百枚の画像を比較分析し、動画内の長期的な変化を追跡できます。
最も重要なのはトレーニングコストです。
報告は主に推論効率について述べていますが、この圧縮メカニズムはトレーニング段階でも同様に有効です。より少ないビジュアルトークンは、より小さな計算グラフ、より速いトレーニング速度、より低いハードウェア要件を意味します。
DeepSeekは「少ないリソースでより良い効果を出す」ことで知られています。R1の強化学習トレーニングからV4のMoEアーキテクチャ、そして現在のビジュアルマルチモーダルまで、この効率優先の哲学が一貫して貫かれています。
しかし、ここには重要な問題があります。圧縮により情報は損失しますか?
DeepSeekは、圧縮によって情報が損失することを否定していません。その主張は、この一連の空間的推論および数え上げタスクにおいて、圧縮された表現は依然として十分に有効であるということです。
各ステップの圧縮では、推論に最も重要な情報を保持し、冗長な情報やノイズを除去します。
前述のDeepSeekの視覚プリミティブメカニズム自体も一種の情報圧縮です。境界ボックスは4つの数字で物体を正確に位置特定でき、点は2つの数字で位置をマークできます。これらの離散的記号は、元のピクセルよりもはるかに高い情報密度を持っています。
実験結果によると、この圧縮はパフォーマンスを損なわず、一部のタスクでは向上をもたらしました。
これは、多くの視覚推論タスクにおいて、ボトルネックが見えていないことではなく、適切な表現方法を見つけていないことにあることを示しています。
この効率の利点は、マルチモーダルインテリジェンスが必ずしもより大きなモデル、より多くの計算リソース、より高いコストを必要としないことを示しています。
DeepSeekが誕生して以来、この会社には一貫した理念がある。「真の知能は計算能力ではなく、問題の本質を理解することにある」。
視覚的推論に何が必要かを真正に理解すれば、それほど多くのトークンは必要ない。適切な表現方法を見つけ出せば、それほど大きなモデルは必要ない。
この観点から見ると、DeepSeekの極限の効率性は目的ではなく、副産物にすぎない。真の目的は、視覚的推論の正しいパラダイムを見つけることである。効率性は、このパラダイムが正しいことを証明しているにすぎない。
03 未完了の課題
DeepSeekは、報告の制限部分で、現在の手法が抱えるいくつかの問題を正直に列挙している。これらの問題は技術的な細部の欠陥ではなく、視覚的推論の次段階への示唆である。
最初の問題はトリガーワード依存です。
報告には明確に記載されており、現在の「視覚的プリミティブで考える」能力は、明示的なトリガー語(explicit trigger words)を用いてのみ活性化されます。つまり、モデルはまだ自然かつ自律的に「いつ枠を描き、点を打つべきか」を決定できません。
これは、モデルが視覚プリミティブを使用する必要があるタイミングと、言語だけで十分なタイミングをまだ正しく学習できていないことを意味します。
理想的状況では、モデルはタスクの性質に応じて自発的に判断すべきである。しかし、ユーザーが「画像内の犬は何匹いますか」と質問した場合、モデルは自動的にビジュアルプリミティブモードに切り替えて、境界ボックスを用いて数を補助すべきである。
技術的には、モデルにメタ認知層を構築する必要があります。このメタ認知層は、現在のタスクの複雑さを評価し、純粋な言語的推論が十分かどうかを判断し、視覚プリミティブを呼び出す必要があるかどうかを決定します。
DeepSeekは現在、このメタ認知層を実装していませんが、方向性は明確に定められています。今後のバージョンでは、モデルが外部のトリガーに依存せず、自ら推論戦略を決定できるようになる可能性があります。
二つ目の問題は解像度の制限です。
報告によると、入力解像度の制約により、モデルは細かいシーンでのパフォーマンスが十分ではなく、出力されるビジュアルプリミティブが時として不正確である。
この問題はDeepSeekの効率優先戦略に関係しています。トークン数を制御するため、視覚トークンの範囲は81から384に制限されています。この範囲を超える画像は、スケーリング処理されます。
この設計はほとんどのシナリオで合理的ですが、极高精度を必要とするタスクではボトルネックに直面します。たとえば、医療画像分析では微細な病変を識別する必要があり、工業検査では微細な欠陥を発見する必要があります。これらのシナリオでは解像度が非常に重要です。
DeepSeekはレポートで、この問題は既存の高解像度手法を統合することで解決できると述べています。つまり、彼らのビジュアルプリミティブフレームワークと従来の高解像度クロッピング手法は対立するものではなく、補完的なものです。
私はDeepSeekがハイブリッドソリューションを提供してもよいと思います。
一般的タスクには圧縮された視覚表現と視覚プリミティブによる推論を用いて高効率を維持し、細粒度分析を必要とする局所領域には動的に高解像度クロップを呼び出してより詳細な視覚情報を抽出します。これにより、全体の効率を保ちつつ、局所的な精度要件も満たします。
このハイブリッド手法の鍵は、モデルがどの領域を高解像度で処理する必要があるかを判断できるようにすることです。これは、先ほど述べたメタ認知の問題に戻ります。
三番目の問題は、シナリオ間の汎化です。
報告によると、ドットを視覚的プリミティブとして使用して複雑なトポロジー推論問題を解決することは依然として困難であり、モデルのクロスシーン汎化能力は限定的である。
この問題は、迷宮ナビゲーションとパス追跡タスクにおいて顕著に現れます。DeepSeekは自社で構築したテストセットで66.9%および56.7%の精度を達成し、他のモデルを上回りましたが、この数値自体はまだ十分ではありません。
より重要なのは、これらのタスクがすべて合成データで訓練されテストされたことです。迷路はアルゴリズムによって生成され、経路追跡の曲線もプログラムによって描画されています。モデルが実世界のトポロジー推論の問題、たとえば実際の地図上で経路を計画したり、複雑な配管図で接続関係を追跡したりする場合、パフォーマンスが低下する可能性があります。
DeepSeekの方法は、大規模で多様性の高いデータを用いて汎化能力を向上させることです。彼らは97,984のデータソースを収集し、厳格なフィルタリングを経て31,701個を保持し、最終的に4,000万以上のサンプルを取得しました。迷宮とパス追跡タスクにおいても、さまざまなトポロジー構造、ビジュアルスタイル、難易度レベルを設計し、可能な限り多くの変化をカバーしようとしました。
しかし、データの多様性は汎化能力の一部にすぎません。モデルはトポロジー推論の本質を真正に理解しているのでしょうか、それとも単に訓練データ内のパターンを記憶しているだけなのでしょうか?
また、DeepSeekのビジュアルプリミティブは、新しい表現システムであり、専用のデータ形式、トレーニングプロセス、評価方法を必要とします。これは、既存のマルチモーダルエコシステムと完全には互換性がありません。
大半のマルチモーダルデータセットと評価ベンチマークは、従来の「画像+テキスト」パラダイムに基づいて設計されており、視覚プリミティブを考慮していません。これらのベンチマークでDeepSeekのモデルを評価するには、視覚プリミティブ機能を無効にするか、評価方法を再設計する必要があります。
他の研究者がこの作業を再現または改善したい場合、データとトレーニングプロセス全体を再構築する必要があり、ハードルが高くなります。
DeepSeekが報告の中でこれらの問題に言及していることから、彼らは自身の仕事に対して明確な認識を持っていることがわかります。
完璧な答えを提示することよりも、これがより価値があるかもしれません。社会の進歩を実際に推進するのは、答えではなく、問いだからです。
