Tether 的 AI 研究團隊根據週一的 press release,開源了 TurboQuant 的生產就緒實現,該算法由 Google 研究團隊開發,旨在顯著降低 AI 的記憶體需求。
該技術現已整合至 QVAC Fabric、Tether 的本地 AI 引擎中,並包含完整的量化流程、框架整合、文檔以及適用於實際應用場景的部署配置。
此次更新針對記憶體消耗問題,這是本地設備運行進階人工智慧的主要障礙之一。隨著人工智慧助手處理更長的對話、更大的檔案和更複雜的任務,其 KV 緩存會擴展,並可能需要大量的硬體資源。
根據研究人員的說法,TurboQuant 在保持模型性能的同時,將內存需求降低了高達 5 倍,使在筆記型電腦、手機、消費級 GPU 和邊緣設備上運行強大 AI 系統變得更加容易。
Tether 首席执行官 Paolo Ardoino 對此發布評論表示:「Google 的研究顯示,AI 記憶體的壓縮效率遠高於大多數人的預期。我們的工作將這一突破帶入了開發者、初創公司和用戶實際可用的生產軟體中。」
根據 Ardoino 的說法,AI 工具應能處理長篇文件、保留專案上下文、支援軟體開發,並在本地處理私有資料,而非將每項任務都通過雲端基礎設施傳輸。他表示,TurboQuant 透過為本地 AI 系統提供更大的記憶體容量和上下文意識,使這成為可能。
他補充說:「如果長上下文 AI 僅能在最大的數據中心內運作,那麼 AI 將由擁有最多硬體的人所塑造。TurboQuant 透過減少記憶體的限制,改變了本地 AI 的能力。」
Tether 認為該技術能透過擴大上下文窗口並提升本地硬體的效能,協助將更多 AI 工作負載從集中式雲端服務轉移。
QVAC SDK 0.12.0 包含此功能,支援公司透過個人裝置、區域網路和去中心化基礎設施,建構更接近使用者的 AI 系統的目標。

