Tether AI、TurboQuantをオープンソース化し、LLMのKVキャッシュメモリ使用量を5分の1に削減

Tether AIは、大規模言語モデルの推論におけるメモリ使用量を最大5倍まで圧縮するツールであるTurboQuantをオープンソースソフトウェアとしてリリースしました。この技術は、トランスフォーマーモデルが会話中のコンテキストを追跡するために使用する「キー・バリュー（KV）キャッシュ」と呼ばれる特定のボトルネックを対象としています。

TurboQuantが実際に行うこと

TurboQuantのアルゴリズムは、Google Researchが2026年3月24日に初期の詳細を公開したものです。Tether AIは、その研究論文を開発者が実際に本番環境にデプロイできる形に変換しました。Tetherのリリースには、完全な量子化パイプライン、フレームワークアダプター、そして包括的なドキュメントが含まれています。

クオンタイズは、ニューラルネットワークの計算で使用される数値の精度を低下させる技術です。16ビットまたは32ビットの浮動小数点数で値を保存するのではなく、4ビット甚至2ビットの表現に圧縮します。TurboQuantは、KVキャッシュに対してこれを処理します。

モデルの再学習やファインチューニングは不要です。開発者は、ゼロから始める必要なく、既存のモデルと既存の推論フレームワークにTurboQuantを適用できます。

リリースは、テキストから動画生成やロボット制御などの新機能を含むQVAC SDKバージョン0.12.0の一環として実施されました。QVACは、消費者向けハードウェアにおける分散型AIを支援することを目的としたTetherの広範なプラットフォームです。

なぜステーブルコイン企業がAIインフラを構築しているのか

テザーはUSDTステーブルコインを超えて積極的に拡大を進めており、AIはその最大の賭けの一つです。CEOのパオロ・アルドイノは、同社のAI取り組みを特定の仮説に基づいて位置づけています。すなわち、高品質な言語モデルは、中央集権的なクラウドサービスに依存するのではなく、スマートフォンやノートパソコンなどの消費者デバイス上でローカルに実行されるべきであるという仮説です。

そのビジョンにおける核心的な障壁はメモリの問題である。KVキャッシュだけで16GBのメモリを必要とするモデルは、ほとんどの消費者デバイスには収まらない。これを3.2GBに削減すれば、ようやく計算が成り立つようになる。

アルドイノは、TurboQuantがトランスフォーマーモデルが消費者向けハードウェアで直面するメモリ制約を解決することで、効率的なローカルAIを現実のものにしていると強調しました。

QVACプラットフォームは、PolarQuantやQuantized Johnson-Lindenstraussなど、以前の複数の量子化技術を基盤として構築されています。TetherのAIチームは、効率性の課題の異なる部分を対象とする複数の圧縮手法を積み重ねており、TurboQuantはその積層における最新の層です。

これは投資家にとって何を意味するのか

このリリースのオープンソース性により、あらゆる開発者がコードを取得し、推論パイプラインに統合することで、メモリ削減の恩恵を即座に受けることができます。これは、QVAC周辺のエコシステムを拡大し、Tetherのプラットフォームを分散型AIアプリケーションのデフォルトツールキットとして位置付けるための戦略的な取り組みです。

Google Researchが基盤となるアルゴリズムを公開しました。Google自体、またはその他のリソースが豊富な研究機関が独自の本番用実装を公開するのを妨げるものは何もありません。テキストから動画への変換とロボット制御機能が同じSDK更新で含まれていることから、チームは迅速に改善を進めていることが示唆されています。

量子化手法は、より長い会話や複雑な推論タスクにおいて実際の使用で性能が低下することがあるため、独立したベンチマークが異なるモデルアーキテクチャとコンテキスト長にわたって5倍の圧縮率の主張を確認しているか監視してください。