Tether AI 開源 TurboQuant,將 LLM KV 緩存記憶體使用量減少 5 倍

iconCryptoBriefing
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
Tether AI 已開源 TurboQuant,這款工具可將 LLM 的 KV 快取記憶體使用量減少 5 倍。該技術針對轉換器模型的關鍵瓶頸,基於 Google 2026 年 3 月 24 日的研究。Tether 將其改造成具備完整量化支援的生產級解決方案。此發布是 QVAC SDK 0.12.0 的一部分,該版本包含文字轉影片與機器人控制功能。Tether 執行長 Paolo Ardoino 表示,此工具有助於在消費型裝置上本地運行高品質的 LLM。開源行動旨在擴展 QVAC 生態,並確立 Tether 作為去中心化 AI 平台的地位。這是 AI + 加密貨幣與鏈上新聞的重大更新。

Tether AI 剛剛釋出 TurboQuant 作為開源軟體,提供一項可將大型語言模型推理的記憶體佔用壓縮高達五倍的工具。此技術針對一種稱為鍵值(KV)快取的特定瓶頸,這基本上是變壓器模型用於在對話中追蹤上下文的運行記憶體。

TurboQuant 實際上做什麼

TurboQuant 的演算法源自 Google Research,該團隊於 2026 年 3 月 24 日首次公開詳細資訊。Tether AI 的工作是將這篇研究論文轉化為開發者實際可用於生產環境的工具。Tether 的發布版本包含完整的量化流程、框架適配器以及詳盡的文檔。

量化是一種降低神經網絡計算中數字精度的技術。您不是將數值儲存為 16 位或 32 位浮點數,而是將其壓縮為 4 位甚至 2 位的表示形式。TurboQuant 專門為 KV 緩存處理此過程。

無需重新訓練或微調模型。開發者可將 TurboQuant 應用於現有模型和現有推理框架,無需從頭開始。

廣告

此次發佈作為 QVAC SDK 0.12.0 版本的一部分,還包括文本轉視頻生成和機器人控制等新功能。QVAC 是 Tether 打造的廣泛平台,旨在支援消費級硬體上的去中心化 AI。

為何一家穩定幣公司正在建設人工智慧基礎設施

Tether 一直積極擴展其 USDT 穩定幣以外的業務,而人工智慧是其最大的投資之一。首席執行官 Paolo Ardoino 將公司的 AI 優先事項定位於一個特定的主張:高品質的語言模型應在手機和筆記型電腦等消費者裝置上本地運行,而非依賴集中式的雲端服務。

記憶體問題是實現該願景的核心障礙。單是 KV 緩存就需要 16 GB 記憶體的模型,無法安裝在大多數消費級設備上。若將其降至 3.2 GB,數學計算便突然變得可行。

Ardoino 強調,TurboQuant 透過解決變壓器模型在消費級硬體上所面臨的記憶體限制,使高效能本地 AI 更接近現實。

QVAC 平台建立在多種先前的量化技術之上,包括 PolarQuant 和 Quantized Johnson-Lindenstrauss。Tether 的 AI 團隊已將多種壓縮方法疊加在一起,每種方法針對效率問題的不同部分,而 TurboQuant 是該堆疊中的最新一層。

這對投資者意味著什麼

此版本的開源特性意味著任何開發者都可以獲取代碼,將其整合至其推理流程中,並立即享受內存節省的優勢。這是一項策略性舉措,旨在擴大圍繞 QVAC 的生態系統,並將 Tether 的平台定位為去中心化 AI 應用的默認工具包。

Google 研究團隊發布了底層演算法。沒有任何障礙阻止 Google 自身或其他資源豐富的實驗室發布其自身的生產版本。文本轉視頻和機器人控制功能在同一個 SDK 更新中被加入,表明該團隊正在快速迭代。

請觀察獨立基準是否確認 5x 壓縮聲明在不同模型架構和上下文長度下均成立,因為量化技術有時在實際使用中,面對更長的對話或更複雜的推理任務時會出現性能下降。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露