Google 研究團隊推出 TurboQuant：3 位量化無準確度損失，推理速度提升高達 8 倍

KuCoinFlash

發佈時間： 25/03/2026 02:36:10

精華摘要

Google 研究團隊已推出 TurboQuant，這是一種 3 位量化方法，可在不損失準確度的情況下將 KV 快取記憶體使用量減少 6 倍。在 NVIDIA H100 GPU 上，4 位注意力運算的運行速度比 32 位模型快達 8 倍。該方法在 Gemma 和 Mistral 上使用 LongBench、Needle In A Haystack 和 ZeroSCROLLS 進行測試，取得了最佳結果。此研究由 Amir Zandieh 和 Vahab Mirrokni 與 KAIST 及 NYU 合作開發，論文將於 ICLR 2026 發表。鏈上數據顯示，隨著效率提升推動採用，市場對山寨幣的興趣日益增加。

據 1M AI News 監測，谷歌研究院發布量化壓縮算法 TurboQuant，可將大語言模型的 KV 緩存壓縮至 3 bit，記憶體佔用縮減至少 6 倍，無需訓練或微調，不損失模型精度。4 bit 模式下，在英偉達 H100 GPU 上計算注意力的速度較 32 bit 未量化基線提升最高 8 倍。

研究團隊在 LongBench、Needle In A Haystack、ZeroSCROLLS 等長上下文基準上使用 Gemma 和 Mistral 模型進行驗證，TurboQuant 在所有測試中均達到最佳表現。該算法由兩個子算法組成：PolarQuant 透過極座標變換消除傳統量化方法的記憶體開銷，QJL 僅用 1 bit 校正殘餘誤差。

該研究由谷歌研究院的 Amir Zandieh 與副總裁兼 Google Fellow Vahab Mirrokni 主導，並與韓國 KAIST 和紐約大學合作完成，將於 ICLR 2026 上發表。谷歌表示，此技術的主要應用之一是解決 Gemini 等模型的 KV 緩存瓶頸。

來源:顯示原文

免責聲明：本頁面資訊可能來自第三方，不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用，不構成任何形式的陳述或保證，也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏，或因使用該資訊而導致的任何結果不承擔任何責任。虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息，請參閱我們的使用條款和風險披露。