Tether 推出 TurboQuant，以在裝置上支援更大規模的 AI 模型

Tether 的 TurboQuant 將 AI 記憶體使用量減少高達 5 倍，協助裝置在本地處理更長的任務。
QVAC 0.12.0 讓開發者能在記憶體負擔較小的筆記型電腦和手機上運行更大規模的 AI 工作負載。
TurboQuant 解決 AI 的記憶體瓶頸，支援更長的對話、更大的檔案和更龐大的程式碼專案。

Tether 已在 QVAC SDK 0.12.0 中新增一項記憶體優化工具，此舉可能有助於筆記型電腦、智慧型手機及其他裝置在本地端處理更大的工作負載。CEO Paolo Ardoino 在 X 上宣布此更新時表示，此版本包含 TurboQuant 技術，可在維持幾乎相同輸出品質的情況下，將 AI 的記憶體需求降低高達五倍。

此次更新聚焦於大型語言模型的一個關鍵限制：記憶體。隨著對話和任務變得更長，記憶體需求急劇上升。TurboQuant 減輕了這一負擔，讓裝置能夠同時處理更大的文件、更長的對話和更多的資訊。

🚨🤖Tether AI 在 QVAC SDK 0.12.0 中推出 TurboQuant KV-Cache 量化技術，將 KV 緩存記憶體需求壓縮高達 5 倍，近乎無損。

高效優質的本地 AI 又更近一步！https://t.co/wZjXgR0Bu5
— Paolo Ardoino 🤖 (@paoloardoino) June 1, 2026

此次發佈還增加了文字轉視頻生成功能、機器人控制功能、編程助手支援、語音處理升級以及更快的圖像分類工具。

TurboQuant 專注於解決 AI 的記憶體瓶頸

TurboQuant 位於 QVAC SDK 0.12.0 版本的中心。這項技術壓縮了 KV 快取，這是一種 AI 模型在會話期間用於追蹤對話、文件和其他資訊的工作記憶體。

隨著使用者向模型輸入更多資訊，記憶體需求隨之上升。Tether 表示，一個擁有 40 億參數的模型在處理約 262,000 個 token 時，僅快取就可能需要約 8 GB 的記憶體。在該規模下同時運行多個會話，會迅速超出許多筆記型電腦和消費型裝置的限制。

TurboQuant 致力於減輕這種壓力。根據 Tether 的說法，這項技術可在保持幾乎相同輸出品質的情況下，將 KV 快取記憶體的需求減少高達五倍。因此，使用者可以在不那麼依賴遠端計算資源的情況下，處理更長的對話、更大的文件和更龐大的程式碼庫。

QVAC 擴展至語言模型之外

此次更新不僅包含記憶體優化。QVAC SDK 0.12.0 新增了多項工具，旨在擴展開發者可在本地裝置上運行的內容。

新增功能包括透過 Wan2.1 模型支援文字轉影片生成。該平台還引入了視覺-語言-動作功能，讓開發者能夠建構機器人控制應用程式。

該發佈還新增了一款輕量級圖像分類工具，適用於無需大型視覺模型的任務。同時，QVAC 已將其文字轉語音和轉錄系統遷移至 GGML 引擎，此變更擴大了對主要桌面和行動作業系統的支援。

開發者也獲得了新的程式碼助手選項。QVAC 現已透過提供者套件與 OpenCode 和 OpenClaw 集成，簡化了模型管理和部署。

開源人工智慧正更接近邊緣

發布顯示 Tether 更注重直接在用戶設備上運行更多計算任務，而非完全依賴集中式數據中心。該公司日益專注於可在個人設備、本地網絡和去中心化系統中運行的軟件。

Ardoino 表示：「Google 的研究顯示，AI 記憶體的壓縮效率遠高於大多數人的預期。我們的工作將這一突破帶入了開發者、初創公司和使用者實際可以建置的生產軟體中。」

他補充道：「人們應該能夠讓 AI 助手閱讀長篇文件、記住一個項目、協助編寫代碼，或處理私人資訊，而無需將每一項任務都強制通過遠端數據中心。」

此次發佈正值 Tether 擴大其在記憶體優化工具之外的布局。Ardoino 近期披露，公司正在開發一個開源的點對點搜尋引擎，並展示了去中心化維基百科搜尋系統的示範。

免責聲明：本文所載資訊僅供參考及教育用途，不構成任何財務建議或任何形式的建議。Coin Edition 對因使用本文提及的內容、產品或服務而導致的任何損失概不負責。建議讀者在採取與本公司相關的任何行動前務必謹慎行事。