Tether AI 剛剛釋出 TurboQuant 作為開源軟體,提供一項可將大型語言模型推理的記憶體佔用壓縮高達五倍的工具。此技術針對一種稱為鍵值(KV)快取的特定瓶頸,這基本上是變壓器模型用於在對話中追蹤上下文的運行記憶體。
TurboQuant 實際上做什麼
TurboQuant 的演算法源自 Google Research,該團隊於 2026 年 3 月 24 日首次公開詳細資訊。Tether AI 的工作是將這篇研究論文轉化為開發者實際可用於生產環境的工具。Tether 的發布版本包含完整的量化流程、框架適配器以及詳盡的文檔。
量化是一種降低神經網絡計算中數字精度的技術。您不是將數值儲存為 16 位或 32 位浮點數,而是將其壓縮為 4 位甚至 2 位的表示形式。TurboQuant 專門為 KV 緩存處理此過程。
無需重新訓練或微調模型。開發者可將 TurboQuant 應用於現有模型和現有推理框架,無需從頭開始。
此次發佈作為 QVAC SDK 0.12.0 版本的一部分,還包括文本轉視頻生成和機器人控制等新功能。QVAC 是 Tether 打造的廣泛平台,旨在支援消費級硬體上的去中心化 AI。
為何一家穩定幣公司正在建設人工智慧基礎設施
Tether 一直積極擴展其 USDT 穩定幣以外的業務,而人工智慧是其最大的投資之一。首席執行官 Paolo Ardoino 將公司的 AI 優先事項定位於一個特定的主張:高品質的語言模型應在手機和筆記型電腦等消費者裝置上本地運行,而非依賴集中式的雲端服務。
記憶體問題是實現該願景的核心障礙。單是 KV 緩存就需要 16 GB 記憶體的模型,無法安裝在大多數消費級設備上。若將其降至 3.2 GB,數學計算便突然變得可行。
Ardoino 強調,TurboQuant 透過解決變壓器模型在消費級硬體上所面臨的記憶體限制,使高效能本地 AI 更接近現實。
QVAC 平台建立在多種先前的量化技術之上,包括 PolarQuant 和 Quantized Johnson-Lindenstrauss。Tether 的 AI 團隊已將多種壓縮方法疊加在一起,每種方法針對效率問題的不同部分,而 TurboQuant 是該堆疊中的最新一層。
這對投資者意味著什麼
此版本的開源特性意味著任何開發者都可以獲取代碼,將其整合至其推理流程中,並立即享受內存節省的優勢。這是一項策略性舉措,旨在擴大圍繞 QVAC 的生態系統,並將 Tether 的平台定位為去中心化 AI 應用的默認工具包。
Google 研究團隊發布了底層演算法。沒有任何障礙阻止 Google 自身或其他資源豐富的實驗室發布其自身的生產版本。文本轉視頻和機器人控制功能在同一個 SDK 更新中被加入,表明該團隊正在快速迭代。
請觀察獨立基準是否確認 5x 壓縮聲明在不同模型架構和上下文長度下均成立,因為量化技術有時在實際使用中,面對更長的對話或更複雜的推理任務時會出現性能下降。

