DeepSeek 推出視覺原語以提升 AI 的空間推理能力

文 | 字母AI

在五一假期前一天，DeepSeek 突然發布了一份視覺多模態技術報告。

在點開之前，我心裡大概有個預期，無非就是能看多遠、看得多清楚。

畢竟過去一年，多模態模型基本都在朝這個方向競爭。OpenAI 講 thinking with images，讓模型在推理過程中裁剪、放大、旋轉圖片；Gemini、Claude 也都在想辦法讓模型處理更高解析度、更複雜的視覺輸入。

The common assumption is that if the model can see more details, visual reasoning will naturally become stronger.

但 DeepSeek 這份報告看下來，你會發現，他們完全走上了另一條路。

DeepSeek 沒有把重點放在「讓模型看到更多像素」上，他們把注意力放在了一個更底層的問題上。

即使模型已經看清楚了，但在推理過程中，你如何能保證模型和你指的是同一個東西？

其實這是多模態推理中最容易被忽略的死穴。

人類看圖時，可以用手指標記對象，例如「這個人是誰誰誰」、「那個人是誰誰誰」。但模型怎麼知道你說的這個是哪一個？

模型只能用語言說「左邊那個」「上面那個」「這條線」。一旦畫面複雜起來，語言指代就會漂移，推理也會跟著崩。

於是 DeepSeek 就說了，那就給模型一根「手指」不就完了？

It transforms dots and bounding boxes into fundamental units for the model to think with, enabling the model to reason while pointing at objects with this cyber finger.

01 從連續視覺到離散符號

DeepSeek 在這份技術報告裡，提出了一個很有意思的問題。他們認為，多模態模型真正難的地方，不是看見圖像，而是在連續推理過程中穩定地指向同一個視覺對象。

就像你對你的朋友說「菜市場裡，張老太太的那個攤位賣的菜最新鮮」。但菜市場裡老頭老太太多了，哪個是張老太太？

但如果你直接用手指著說「就是那個」，你朋友就會馬上明白。

DeepSeek 將這個問題命名為“引用鴻溝”(Reference Gap)。

過去一年，幾乎所有前沿多模態模型都在解決「感知鴻溝」(Perception Gap) 這個問題。

假如有一張照片放在你面前，如果照片太模糊、解析度太低，你可能看不清楚裡面的小字或者遠處的細節。AI 也一樣，如果輸入的圖像品質不夠、處理方式不對，它就會「看不清」，這就是感知鴻溝。

GPT、Claude、Gemini 這些模型不斷提高解析度，引入高解析度裁剪、動態分塊、多尺度處理，目的就是讓模型能看到更多細節。

這個方向當然有價值，但 DeepSeek 在報告裡指出，就算模型看得再清楚，在複雜的空間推理任務上，仍然會出現邏輯崩潰。

問題出在自然語言本身。

照片中有十幾隻狗，你說「左邊那隻狗」，模型就無法理解你具體指的是哪一隻。

還有更絕的，如果你讓模型數一下照片裡狗的數量，那麼模型在推理過程中很容易就搞不清楚自己已經數過哪些、還有哪些沒數。

報告中還提到了迷宮導航這樣極端的情況，純語言根本無法準確描述不規則形狀的路徑和複雜的拓撲關係。

語言作為一種指代工具，在連續的視覺空間裡天生就是模糊的。它擅長抽象概念和因果關係，但在空間定位和拓撲關係上，語言的表達能力存在根本性的局限。

DeepSeek 本身是一個通用的語言模型，那應該怎樣解決呢？

於是就有了文章開頭提到的這根「手指」。

他們提出的核心概念是「視覺基元」(Visual Primitives)，具體來說就是將電腦視覺中最基礎的兩種空間標記——邊界框（bounding boxes）和點（points）——提升為「思維的最小單位」。

以往的多模態模型雖然也能框出物體，但只是在最後給你一個結果，證明「我找到了」。就像考試時，你只交答案，不寫解題過程。

也有一些研究讓 AI 在思考過程中畫框，但目的只是為了「看得更準」，框框只是個輔助工具。就好比你做數學題時用草稿紙，草稿紙只是幫你算得更清楚，不是解題思路的一部分。

DeepSeek 要做的完全不同。

他們將這些空間標記直接嵌入到模型的推理過程中，讓它們成為推理的有機組成部分。模型在思考時，不只是用語言描述「我看到了一隻狗」，還同時輸出「我看到了一隻狗，它在這裡：[[x1,y1,x2,y2]]」。

這個機制被 DeepSeek 稱為“邊推理邊指向”(point while it reasons)。

DeepSeek

模型的每一步思考都錨定在圖像的具體坐標上。

技術報告中僅給出了這樣一個例子：模型從起點出發，一路探索、回溯、再嘗試，最後輸出了一串完整的座標路徑，每個座標都對應迷宮中走過的一個點。

這樣一來，模型就不會在推理過程中「迷路」。它不會搞不清楚自己在說什麼、指什麼。每個視覺物件都有了明確的空間錨點，推理過程變得可追蹤、可驗證。

這條技術路線與 OpenAI 的方向形成了有趣的對比。

OpenAI 在 o3 和 o4-mini 的官方介紹中明確提到了「thinking with images」的概念，即模型可以將圖像納入推理鏈，並通過裁剪、放大、旋轉等方式處理圖像。這個方向的重點是讓圖像本身成為思維鏈的一部分，模型可以在推理過程中生成新的圖像、修改圖像、對圖像進行操作。

OpenAI 的路線強調通用能力，視覺、代碼、搜索、文件和工具調用協同工作。模型擁有一個強大的「視覺工作台」，可靈活處理各種視覺任務。

DeepSeek 的路線則更「符號化」一點。它讓座標進入思維鏈。模型在推理文本裡顯式寫出邊界框和點的座標，把視覺物件變成推理時可重用的錨點。

這導致 OpenAI 的視覺推理發生在內部，用戶只能看到最終答案和必要解釋，中間的視覺處理過程是黑箱。DeepSeek 則故意把中間視覺錨點顯式化，讓推理過程完全透明。

DeepSeek 這樣做，好處是推理過程更容易被訓練、檢查和打分。這也讓它更容易設計格式、品質和任務級獎勵。尤其在迷宮、路徑追蹤這類任務中，可以對路徑合法性、軌跡覆蓋度等給予更細的回饋。

模型不僅學會了輸出正確答案，更學會了使用視覺基元進行推理的方法。

02 效率才是核心

DeepSeek 的這份報告中有一個很容易被忽略但極其重要的細節：他們的模型在處理圖像時，使用的 token 數量遠少於其他前沿模型。

報告中有一張對比圖，展示了不同模型處理一張 800×800 分辨率圖像時消耗的 token 數量。

Gemini-3-Flash 約 1100 個，Claude-Sonnet-4.6 約 870 個，GPT-5.4 約 740 個，Qwen3-VL 約 660 個，DeepSeek 約 361 個，並在 KV 緩存裡只保留約 90 個條目。

這個差距不是一點點。DeepSeek 使用的 token 數量只有 Gemini 的 3 分之 1，KV 緩存條目更是只有 10 分之 1 左右。

這種極致的效率是怎麼實現的？

DeepSeek 採用了一種稱為「壓縮稀疏注意力」（Compressed Sparse Attention, CSA）的機制。

你可以這樣理解，假設你給朋友看一張全家福，你不會說「從左數第 237 個像素開始有一塊紅色區域……」，你會直接說「左邊是我媽，右邊是我爸」。

DeepSeek-ViT 先將圖像壓縮為更少的視覺 token，CSA 再將這些視覺 token 在 KV 緩存中的表示進一步壓縮。

This mechanism was previously used on the DeepSeek-V4-Flash model and is now being applied to visual multimodal systems.

具體的壓縮流程如下。一張 756×756 的圖像包含 571536 個像素。這些像素首先經過 ViT 處理，以 14×14 的 patch size 切分，生成 2916 個 patch token。然後進行 3×3 的空間壓縮，將每 9 個相鄰的 token 沿著通道維度壓縮成 1 個，變成 324 個視覺 token。

這 324 個 token 進入大語言模型進行預填充。最後，CSA 機制會把這些視覺 token 在 KV 緩存裡再壓縮 4 倍，最終只保留 81 個條目。

從 571536 個像素到 81 個 KV 緩存條目，整個壓縮比達到 7056 倍。

一般 AI 大廠都是用暴力方法堆疊計算資源，而 DeepSeek 則是在資訊論層面做取捨，只保留最直觀易懂的資訊。

其最直接的結果，就是推理速度變快了許多。

圖像 token 數量直接影響模型的推理延遲。在自迴歸生成過程中，每生成一個新 token，模型都需要對之前所有 token 的 KV 緩存進行注意力計算。如果圖像佔用了 1000 個 token，那麼每次生成都要對這 1000 個 token 做注意力。如果只佔用 90 個，計算量就大幅減少。

對於需要實時響應的應用場景，例如機器人視覺、自動駕駛、實時視頻分析，推理速度的提升起到了決定性作用。

而且它佔用的記憶體也很少。

KV 缓存是大模型推理的記憶體瓶頸。特別是在處理長上下文或批量推理時，KV 緩存會佔用大量顯存。DeepSeek 將視覺 token 的 KV 緩存壓縮至 90 個條目，意味著可以在相同的硬體上處理更多圖像，或處理更長的多輪對話。

這對於實際部署非常重要。很多公司的多模態模型在實驗室裡表現很好，但一到實際部署就遇到成本問題。每張圖片消耗的 token 越多，推理成本就越高，可支援的併發用戶就越少。DeepSeek 的效率優勢在規模化部署時會被放大。

同時也間接提高了模型的上下文容量。

如果一張圖片要佔用 1000 個 token，那麼在一個 128k 的上下文視窗裡，只能放 100 多張圖片。如果只佔用 300 個 token，就可以放 400 多張。這對於需要處理多圖對話、長視頻分析、大量文檔理解的場景至關重要。

DeepSeek 的模型可以在一個對話中處理更多圖像，能夠對比分析幾十張甚至上百張圖片，並追蹤視頻中的長期變化。

最重要的是訓練成本。

雖然報告主要講述推理效率，但這種壓縮機制在訓練階段同樣有效。更少的視覺 token 意味著更小的計算圖、更快的訓練速度和更低的硬體要求。

DeepSeek 一直以「用更少資源做出更好效果」著稱。從 R1 的強化學習訓練，到 V4 的 MoE 架構，再到現在的視覺多模態，這種效率優先的哲學貫穿始終。

但這裡有一個關鍵問題。壓縮會不會損失資訊？

DeepSeek 並未否認壓縮會帶來資訊損失。它的主張是，在這組空間推理和計數任務上，壓縮後的表徵仍然足夠有效。

Each compression step retains the most important information for inference while discarding redundancy and noise.

其實前面提到的 DeepSeek 視覺基元機制，本身也是一種資訊壓縮。一個邊界框僅用 4 個數字就能精確定位一個物體，一個點僅用 2 個數字就能標記一個位置。這些離散符號所攜帶的資訊密度遠高於原始像素。

From the experimental results, this compression did not harm performance and even improved it on certain tasks.

This suggests that for many visual reasoning tasks, the bottleneck is not due to insufficient clarity of vision, but rather the lack of an appropriate representation method.

這種效率優勢還證明了多模態智能不一定需要更大的模型、更多的算力、更高的成本。

自 DeepSeek 時刻誕生以來，這家公司一直有一條暗線，「真正的智能不在於算力，而在於對問題本質的理解」。

當你真正理解了視覺推理需要什麼，你就不用那麼多 token。當你找到了合適的表徵方式，你就不用那麼大的模型。

從這個角度看，DeepSeek 的極致效率並非目的，而是副產品。真正的目的是找到視覺推理的正確範式。效率只是證明了這個範式是對的。

03 未竟之事

DeepSeek 在報告的局限性部分，坦誠地列出了當前方法存在的幾個問題。這些問題不是技術細節上的小瑕疵，而是指向了視覺推理的下一個階段。

第一個問題是觸發詞依賴。

報告裡明確指出，目前的「用視覺基元思考」能力需要顯式的觸發詞（explicit trigger words）才能啟動。也就是說，模型還不能自然、自主地決定「什麼時候該畫框、打點」。

這意味著模型尚未真正學會判斷何時需要使用視覺基元，何時僅用語言就足夠了。

理想的情況下，模型應能根據任務的性質自主決策。但當用戶問「數一數圖裡有幾隻狗」的時候，模型應自動切換到視覺基元模式，用邊界框來輔助計數。

從技術上說，這需要在模型裡建立一個元認知層。這個元認知層可以評估當前任務的複雜度，判斷純語言推理是否足夠，決定是否需要調用視覺基元。

DeepSeek 目前尚未實現這個元認知層，但他們已明確了方向。未來的版本可能會讓模型學會自主決定推理策略，而不是依賴外部觸發。

第二個問題是分辨率限制。

報告提到，受輸入解析度限制，模型在細粒度場景下的表現還不夠好，輸出的視覺基元有時不夠精確。

這個問題與 DeepSeek 的效率優先策略有關。為了控制 token 數量，他們將視覺 token 的範圍限制在 81 到 384 之間。對於超出此範圍的圖像，會進行縮放處理。

這種設計在大部分場景下是合理的，但在一些需要極高精度的任務上就會遇到瓶頸。例如醫療影像分析需要識別微小的病灶，工業檢質需要發現細微的瑕疵，這些場景對解析度的要求很高。

DeepSeek 在報告中提到，這個問題可以通過整合現有的高解析度方法來解決。也就是說，他們的視覺基元框架和傳統的高解析度裁剪方法不是對立的，而是互補的。

我覺得 DeepSeek 可以出個混合方案。

對於大部分常規任務，使用壓縮的視覺表徵和視覺基元推理，以保持高效率；對於需要細粒度分析的局部區域，動態調用高解析度裁剪，提取更詳細的視覺資訊。這樣既保持了整體效率，又滿足了局部精度需求。

這種混合方案的關鍵是讓模型學會判斷哪些區域需要高解析度處理。於是這又回到了剛才的元認知問題上。

第三個問題是跨場景泛化。

報告提到，使用點作為視覺基元來解決複雜拓撲推理問題仍然很困難，模型的跨場景泛化能力有限。

這個問題在迷宮導航和路徑追蹤任務上表現得比較明顯。雖然 DeepSeek 在自己構建的測試集上達到了 66.9% 和 56.7% 的準確率，超過了其他模型，但這個數字本身還不夠。

更重要的是，這些任務都是在合成數據上訓練和測試的。迷宮是用算法生成的，路徑追蹤的曲線也是程序化繪製的。當模型遇到真實世界裡的拓撲推理問題時，比如在真實地圖上規劃路徑，在複雜管線圖裡追蹤連接關係，表現可能會下降。

DeepSeek 的方法是透過大規模、高多樣性的數據來提升泛化能力。他們爬取了 97984 個數據源，經過嚴格過濾後保留了 31701 個，最終得到超過 4000 萬個樣本。在迷宮和路徑追蹤任務上，他們也設計了多種拓撲結構、視覺風格、難度等級，試圖覆蓋盡可能多的變化。

然而數據多樣性只是泛化能力的一部分。模型是否真正理解了拓撲推理的本質？還是說它只是記住了訓練數據裡的模式而已？

此外，DeepSeek 的視覺基元是一套新的表徵系統，需要專門的資料格式、訓練流程和評估方法，與現有的多模態生態並不完全相容。

大多數多模態數據集和評測基準都是基於傳統的「圖像+文本」範式設計的，未考慮視覺基元。如果要在這些基準上評測 DeepSeek 的模型，要么需要關閉視覺基元功能，要么需要重新設計評測方法。

其他研究者若想複製或改進此工作，需重新建構整個資料與訓練流程，門檻較高。

DeepSeek 能在報告中談及這些問題，說明他們對自己的工作有清醒的認識。

這可能比給出完美答案更有價值。因為真正推動社會進步的，往往不是答案，而是問題。