Google 發布無需新硬體即可實現 3 倍更快的本地 AI 推理

幣界網報導：

在自己的電腦上運行人工智慧模型固然很好——但並非總是如此。

承諾提供隱私保護、無需訂閱費，且資料不會離開您的設備。但對大多數人來說，現實情況是，在句子之間，光標會閃爍五秒鐘。

這個瓶頸有個名字：推理速度。它與模型的智能程度無關，而是一個硬體問題。標準的 AI 模型每次生成一個詞片段（稱為“詞元”），硬體必須將數十億個參數從記憶體傳輸到計算單元，才能生成每個詞元。這種設計本身就很慢。在消費級硬體上，這簡直令人難以忍受。

大多數人採取的變通方法是運行規模較小、性能較弱的模型，或者運行高度壓縮的版本，稱為量化模型。這兩種方案都不能完美，它們都犧牲了一些質量來換取速度。雖然都能運行，但並非你真正想要的那種型號。

現在谷歌提出了不同的方案。該公司剛剛發布了多代幣預測（MTP）草稿器，用於其Gemma 4 家族開放模型技術——這項技術可以在完全不影響模型質量或推理能力的情況下，實現高達 3 倍的速度提升。

這種方法被稱為推測性解碼，其概念已存在多年。谷歌的研究人員早在2022年就發表了奠基性論文。直到現在，這個想法才逐漸被主流接受，因為它需要合適的架構才能大規模運行。

簡而言之，其運作方式如下：與其讓功能強大的大型模型獨自完成所有工作，不如將其與一個小型「預測器」模型結合使用。預測器速度快、成本低——它能一次性預測多個代幣，所需時間甚至比主模型生成一個代幣所需的時間還要短。然後，大型模型只需一次遍歷即可檢查所有這些預測結果。如果預測正確，那麼只需一次前向遍歷的成本，就能得到完整的序列。

根據谷歌的說法“如果目標模型同意該草案，它會在一次前向傳遞中接受整個序列——甚至在此過程中生成自己的額外標記。”

沒有任何損失：大型模型——例如 Gemma 4 的 310 億密集版本——仍然會驗證每個令牌，輸出品質也完全相同。你只是利用了在運行緩慢的部分閒置的計算能力。

谷歌表示，草圖繪製模型與目標模型共享鍵值緩存（KV緩存），這是一種存儲已處理上下文的記憶體結構，因此它們不會浪費時間重新計算大型模型已知的資訊。對於專為手機和樹莓派設備設計的小型邊緣模型，該團隊甚至構建了一種高效的聚類技術，以進一步縮短生成時間。

這並非人工智能領域在並行化文本生成方面做出的唯一嘗試。基於擴散的語言模型——例如 Inception Labs 的 Mercury——採用了一種截然不同的方法：它們並非一次預測一個詞元，而是從噪聲開始，迭代地優化整個輸出。理論上速度很快，但擴散語言模型在質量上難以與傳統的 Transformer 模型相媲美，因此它們更多地被視為一種研究對象，而非實用工具。

推测性解碼之所以不同，是因為它完全不改變底層模型。它是一種服務優化，而非架構替換。你原本運行的 Gemma 4 版本會變得更快。

實際效果確實顯著。根據谷歌自身的基準測試，在搭載 Nvidia RTX Pro 6000 桌面 GPU 的 Gemma 4 26B 芯片上啟用 MTP 草案後，每秒令牌處理量大約翻了一番。在 Apple Silicon 芯片上，4 到 8 個請求的批處理大小可以帶來大約 2.2 倍的速度提升。雖然並非所有場景都能達到 3 倍的上限，但這仍然是“勉強可用”和“速度足夠快，可以實際使用”之間顯著的差異。

語境至關重要。當中國模式DeepSeek在2025年1月震驚了市場。——一天之內導致英偉達市值蒸發6000億美元——其核心教訓是：效率提升比單純提升計算能力更具影響力。更智能的運行方式勝過一味增加硬體投入。谷歌的MTP繪圖工具是朝著這個方向邁出的又一步，只不過它的目標客戶群體明確是消費者。

整個人工智慧行業目前就像一個三角形，由推理、訓練和記憶三個部分組成。任何一個領域的突破都會對整個生態系統產生推動或衝擊的影響。DeepSeek 的訓練方法（利用低端硬體構建強大的模型）就是一個例子，而谷歌的……TurboQuant（如何在不降低質量的前提下縮小人工智慧記憶）是另一篇論文。這兩篇論文都導致市場崩盤，因為各公司都在努力尋找應對之策。

谷歌表示，該繪圖工具可「提高響應速度：大幅降低近實時聊天、沉浸式語音應用程式和代理工作流程的延遲」——這類任務需要低延遲才能真正發揮作用。

應用場景迅速清晰：一個不會延遲的本地代碼助手；一個在你還來不及忘記自己問了什麼之前就能做出回應的語音介面；一個無需等待三秒即可完成步驟的智能工作流程。所有這一切，都可以在你已有的硬體上實現。

MTP 草案现已上线拥抱脸，它們在 Apache 2.0 許可證下與 Kaggle 和 Ollama 兼容。它們開箱即用，支援 vLLM、MLX、SGLang 和 Hugging Face Transformers。