Google 發布無需新硬體即可實現 3 倍更快的本地 AI 推理

icon币界网
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
Google 推出多標記預測(MTP),無需新硬體即可將本地 AI 推理速度提升 3 倍。該猜測解碼方法結合快速預測模型與較大模型,一次生成多個標記。此更新現已適用於 Gemma 4 模型系列,並支援 Kaggle 和 Ollama 等平台。此 AI + 加密貨幣新聞強調了新標記上線的相容性與效能提升。
幣界網報導:

在自己的電腦上運行人工智慧模型固然很好——但並非總是如此。

承諾提供隱私保護、無需訂閱費,且資料不會離開您的設備。但對大多數人來說,現實情況是,在句子之間,光標會閃爍五秒鐘。

這個瓶頸有個名字:推理速度。它與模型的智能程度無關,而是一個硬體問題。標準的 AI 模型每次生成一個詞片段(稱為“詞元”),硬體必須將數十億個參數從記憶體傳輸到計算單元,才能生成每個詞元。這種設計本身就很慢。在消費級硬體上,這簡直令人難以忍受。

大多數人採取的變通方法是運行規模較小、性能較弱的模型,或者運行高度壓縮的版本,稱為 量化模型。這兩種方案都不能完美,它們都犧牲了一些質量來換取速度。雖然都能運行,但並非你真正想要的那種型號。

現在谷歌提出了不同的方案。該公司剛剛發布了多代幣預測(MTP)草稿器,用於其Gemma 4 家族開放模型技術——這項技術可以在完全不影響模型質量或推理能力的情況下,實現高達 3 倍的速度提升。

這種方法被稱為推測性解碼,其概念已存在多年。谷歌的研究人員早在2022年就發表了奠基性論文。直到現在,這個想法才逐漸被主流接受,因為它需要合適的架構才能大規模運行。

簡而言之,其運作方式如下:與其讓功能強大的大型模型獨自完成所有工作,不如將其與一個小型「預測器」模型結合使用。預測器速度快、成本低——它能一次性預測多個代幣,所需時間甚至比主模型生成一個代幣所需的時間還要短。然後,大型模型只需一次遍歷即可檢查所有這些預測結果。如果預測正確,那麼只需一次前向遍歷的成本,就能得到完整的序列。

根據谷歌的說法“如果目標模型同意該草案,它會在一次前向傳遞中接受整個序列——甚至在此過程中生成自己的額外標記。”

沒有任何損失:大型模型——例如 Gemma 4 的 310 億密集版本——仍然會驗證每個令牌,輸出品質也完全相同。你只是利用了在運行緩慢的部分閒置的計算能力。

谷歌表示,草圖繪製模型與目標模型共享鍵值緩存(KV緩存),這是一種存儲已處理上下文的記憶體結構,因此它們不會浪費時間重新計算大型模型已知的資訊。對於專為手機和樹莓派設備設計的小型邊緣模型,該團隊甚至構建了一種高效的聚類技術,以進一步縮短生成時間。

這並非人工智能領域在並行化文本生成方面做出的唯一嘗試。基於擴散的語言模型——例如 Inception Labs 的 Mercury——採用了一種截然不同的方法:它們並非一次預測一個詞元,而是從噪聲開始,迭代地優化整個輸出。理論上速度很快,但擴散語言模型在質量上難以與傳統的 Transformer 模型相媲美,因此它們更多地被視為一種研究對象,而非實用工具。

推测性解碼之所以不同,是因為它完全不改變底層模型。它是一種服務優化,而非架構替換。你原本運行的 Gemma 4 版本會變得更快。

實際效果確實顯著。根據谷歌自身的基準測試,在搭載 Nvidia RTX Pro 6000 桌面 GPU 的 Gemma 4 26B 芯片上啟用 MTP 草案後,每秒令牌處理量大約翻了一番。在 Apple Silicon 芯片上,4 到 8 個請求的批處理大小可以帶來大約 2.2 倍的速度提升。雖然並非所有場景都能達到 3 倍的上限,但這仍然是“勉強可用”和“速度足夠快,可以實際使用”之間顯著的差異。

語境至關重要。當中國模式DeepSeek在2025年1月震驚了市場。——一天之內導致英偉達市值蒸發6000億美元——其核心教訓是:效率提升比單純提升計算能力更具影響力。更智能的運行方式勝過一味增加硬體投入。谷歌的MTP繪圖工具是朝著這個方向邁出的又一步,只不過它的目標客戶群體明確是消費者。

整個人工智慧行業目前就像一個三角形,由推理、訓練和記憶三個部分組成。任何一個領域的突破都會對整個生態系統產生推動或衝擊的影響。DeepSeek 的訓練方法(利用低端硬體構建強大的模型)就是一個例子,而谷歌的……TurboQuant(如何在不降低質量的前提下縮小人工智慧記憶)是另一篇論文。這兩篇論文都導致市場崩盤,因為各公司都在努力尋找應對之策。

谷歌表示,該繪圖工具可「提高響應速度:大幅降低近實時聊天、沉浸式語音應用程式和代理工作流程的延遲」——這類任務需要低延遲才能真正發揮作用。

應用場景迅速清晰:一個不會延遲的本地代碼助手;一個在你還來不及忘記自己問了什麼之前就能做出回應的語音介面;一個無需等待三秒即可完成步驟的智能工作流程。所有這一切,都可以在你已有的硬體上實現。

MTP 草案现已上线 拥抱脸,它們在 Apache 2.0 許可證下與 Kaggle 和 Ollama 兼容。它們開箱即用,支援 vLLM、MLX、SGLang 和 Hugging Face Transformers。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露