在自己的電腦上運行人工智慧模型固然很好——但並非總是如此。
承諾提供隱私保護、無需訂閱費,且資料不會離開您的設備。但對大多數人來說,現實情況是,在句子之間,光標會閃爍五秒鐘。
這個瓶頸有個名字:推理速度。它與模型的智能程度無關,而是一個硬體問題。標準的 AI 模型每次生成一個詞片段(稱為“詞元”),硬體必須將數十億個參數從記憶體傳輸到計算單元,才能生成每個詞元。這種設計本身就很慢。在消費級硬體上,這簡直令人難以忍受。
大多數人採取的變通方法是運行規模較小、性能較弱的模型,或者運行高度壓縮的版本,稱為 量化模型。這兩種方案都不能完美,它們都犧牲了一些質量來換取速度。雖然都能運行,但並非你真正想要的那種型號。
現在谷歌提出了不同的方案。該公司剛剛發布了多代幣預測(MTP)草稿器,用於其Gemma 4 家族開放模型技術——這項技術可以在完全不影響模型質量或推理能力的情況下,實現高達 3 倍的速度提升。
這種方法被稱為推測性解碼,其概念已存在多年。谷歌的研究人員早在2022年就發表了奠基性論文。直到現在,這個想法才逐漸被主流接受,因為它需要合適的架構才能大規模運行。
簡而言之,其運作方式如下:與其讓功能強大的大型模型獨自完成所有工作,不如將其與一個小型「預測器」模型結合使用。預測器速度快、成本低——它能一次性預測多個代幣,所需時間甚至比主模型生成一個代幣所需的時間還要短。然後,大型模型只需一次遍歷即可檢查所有這些預測結果。如果預測正確,那麼只需一次前向遍歷的成本,就能得到完整的序列。
根據谷歌的說法“如果目標模型同意該草案,它會在一次前向傳遞中接受整個序列——甚至在此過程中生成自己的額外標記。”
沒有任何損失:大型模型——例如 Gemma 4 的 310 億密集版本——仍然會驗證每個令牌,輸出品質也完全相同。你只是利用了在運行緩慢的部分閒置的計算能力。
谷歌表示,草圖繪製模型與目標模型共享鍵值緩存(KV緩存),這是一種存儲已處理上下文的記憶體結構,因此它們不會浪費時間重新計算大型模型已知的資訊。對於專為手機和樹莓派設備設計的小型邊緣模型,該團隊甚至構建了一種高效的聚類技術,以進一步縮短生成時間。
這並非人工智能領域在並行化文本生成方面做出的唯一嘗試。基於擴散的語言模型——例如 Inception Labs 的 Mercury——採用了一種截然不同的方法:它們並非一次預測一個詞元,而是從噪聲開始,迭代地優化整個輸出。理論上速度很快,但擴散語言模型在質量上難以與傳統的 Transformer 模型相媲美,因此它們更多地被視為一種研究對象,而非實用工具。
推测性解碼之所以不同,是因為它完全不改變底層模型。它是一種服務優化,而非架構替換。你原本運行的 Gemma 4 版本會變得更快。
實際效果確實顯著。根據谷歌自身的基準測試,在搭載 Nvidia RTX Pro 6000 桌面 GPU 的 Gemma 4 26B 芯片上啟用 MTP 草案後,每秒令牌處理量大約翻了一番。在 Apple Silicon 芯片上,4 到 8 個請求的批處理大小可以帶來大約 2.2 倍的速度提升。雖然並非所有場景都能達到 3 倍的上限,但這仍然是“勉強可用”和“速度足夠快,可以實際使用”之間顯著的差異。
語境至關重要。當中國模式DeepSeek在2025年1月震驚了市場。——一天之內導致英偉達市值蒸發6000億美元——其核心教訓是:效率提升比單純提升計算能力更具影響力。更智能的運行方式勝過一味增加硬體投入。谷歌的MTP繪圖工具是朝著這個方向邁出的又一步,只不過它的目標客戶群體明確是消費者。
整個人工智慧行業目前就像一個三角形,由推理、訓練和記憶三個部分組成。任何一個領域的突破都會對整個生態系統產生推動或衝擊的影響。DeepSeek 的訓練方法(利用低端硬體構建強大的模型)就是一個例子,而谷歌的……TurboQuant(如何在不降低質量的前提下縮小人工智慧記憶)是另一篇論文。這兩篇論文都導致市場崩盤,因為各公司都在努力尋找應對之策。
谷歌表示,該繪圖工具可「提高響應速度:大幅降低近實時聊天、沉浸式語音應用程式和代理工作流程的延遲」——這類任務需要低延遲才能真正發揮作用。
應用場景迅速清晰:一個不會延遲的本地代碼助手;一個在你還來不及忘記自己問了什麼之前就能做出回應的語音介面;一個無需等待三秒即可完成步驟的智能工作流程。所有這一切,都可以在你已有的硬體上實現。
MTP 草案现已上线 拥抱脸,它們在 Apache 2.0 許可證下與 Kaggle 和 Ollama 兼容。它們開箱即用,支援 vLLM、MLX、SGLang 和 Hugging Face Transformers。
