Tether AI 開源 TurboQuant，將 LLM KV 緩存記憶體使用量減少 5 倍

Tether AI 剛剛釋出 TurboQuant 作為開源軟體，提供一項可將大型語言模型推理的記憶體佔用壓縮高達五倍的工具。此技術針對一種稱為鍵值（KV）快取的特定瓶頸，這基本上是變壓器模型用於在對話中追蹤上下文的運行記憶體。

TurboQuant 實際上做什麼

TurboQuant 的演算法源自 Google Research，該團隊於 2026 年 3 月 24 日首次公開詳細資訊。Tether AI 的工作是將這篇研究論文轉化為開發者實際可用於生產環境的工具。Tether 的發布版本包含完整的量化流程、框架適配器以及詳盡的文檔。

量化是一種降低神經網絡計算中數字精度的技術。您不是將數值儲存為 16 位或 32 位浮點數，而是將其壓縮為 4 位甚至 2 位的表示形式。TurboQuant 專門為 KV 緩存處理此過程。

無需重新訓練或微調模型。開發者可將 TurboQuant 應用於現有模型和現有推理框架，無需從頭開始。

此次發佈作為 QVAC SDK 0.12.0 版本的一部分，還包括文本轉視頻生成和機器人控制等新功能。QVAC 是 Tether 打造的廣泛平台，旨在支援消費級硬體上的去中心化 AI。

Tether 一直積極擴展其 USDT 穩定幣以外的業務，而人工智慧是其最大的投資之一。首席執行官 Paolo Ardoino 將公司的 AI 優先事項定位於一個特定的主張：高品質的語言模型應在手機和筆記型電腦等消費者裝置上本地運行，而非依賴集中式的雲端服務。

記憶體問題是實現該願景的核心障礙。單是 KV 緩存就需要 16 GB 記憶體的模型，無法安裝在大多數消費級設備上。若將其降至 3.2 GB，數學計算便突然變得可行。

Ardoino 強調，TurboQuant 透過解決變壓器模型在消費級硬體上所面臨的記憶體限制，使高效能本地 AI 更接近現實。

QVAC 平台建立在多種先前的量化技術之上，包括 PolarQuant 和 Quantized Johnson-Lindenstrauss。Tether 的 AI 團隊已將多種壓縮方法疊加在一起，每種方法針對效率問題的不同部分，而 TurboQuant 是該堆疊中的最新一層。

此版本的開源特性意味著任何開發者都可以獲取代碼，將其整合至其推理流程中，並立即享受內存節省的優勢。這是一項策略性舉措，旨在擴大圍繞 QVAC 的生態系統，並將 Tether 的平台定位為去中心化 AI 應用的默認工具包。

Google 研究團隊發布了底層演算法。沒有任何障礙阻止 Google 自身或其他資源豐富的實驗室發布其自身的生產版本。文本轉視頻和機器人控制功能在同一個 SDK 更新中被加入，表明該團隊正在快速迭代。

請觀察獨立基準是否確認 5x 壓縮聲明在不同模型架構和上下文長度下均成立，因為量化技術有時在實際使用中，面對更長的對話或更複雜的推理任務時會出現性能下降。