テザーのAI研究グループは、月曜日のプレスリリースで、Google Researchが開発したAIのメモリ要件を大幅に削減することを目的としたTurboQuantの本番対応実装をオープンソース化したと発表しました。
この技術は現在、TetherのローカルAIエンジンであるQVAC Fabricの一部となっており、完全な量子化パイプライン、フレームワーク統合、ドキュメンテーション、および実際の使用ケース向けのデプロイプロファイルを含んでいます。
このリリースは、ローカルデバイスで高度なAIを実行する際の最大の障壁の一つであるメモリ消費量を対象としています。AIアシスタントがより長い会話、より大きなファイル、より複雑なタスクを処理するにつれて、KVキャッシュが拡大し、大量のハードウェアリソースを必要とするようになります。
研究者によると、TurboQuantはモデルのパフォーマンスを維持しながらメモリ要件を最大5倍削減し、ラップトップ、スマホ、消費者向けGPU、エッジデバイス上で高性能なAIシステムを実行しやすくします。
「Googleの研究では、AIのメモリが多くの人が想定していたよりもはるかに効率的に圧縮できることが示されました。私たちの取り組みは、この画期的な成果を、開発者、スタートアップ、ユーザーが実際に活用できるプロダクションソフトウェアに実装しました」と、TetherのCEOであるPaolo Ardoinoはリリースについてコメントしました。
アルドイノによると、AIツールは長文の処理、プロジェクトのコンテキストの保持、ソフトウェア開発のサポート、そしてすべてのタスクをクラウドインフラを通すのではなく、プライベートデータをローカルで扱える能力を備えるべきである。彼は、TurboQuantがローカルAIシステムにより大きなメモリ容量とコンテキスト認識を提供することで、それを可能にしていると述べた。
「もし長文コンテキストAIが最大規模のデータセンター内でのみ機能するなら、AIは最も多くのハードウェアを所有する者によって形作られることになる。TurboQuantは、メモリを壁としないために、ローカルAIが可能にする範囲を変える」と彼は追加した。
Tetherは、この技術がローカルハードウェアでのコンテキストウィンドウの拡大とパフォーマンスの向上を可能にすることで、より多くのAIワークロードを中央集権的なクラウドサービスから移行できると信じています。
QVAC SDK 0.12.0には、個人デバイス、ローカルネットワーク、分散型インフラを通じてユーザーに近い場所で動作するAIシステムの構築という同社の目標を実現するための機能が含まれています。

