Google Research、TurboQuantを導入：3ビット量子化で精度損失なし、推論速度を最大8倍に向上

KuCoinFlash

公開時期： 2026/03/25 2:36:10

概要

Google Researchは、精度を損なうことなくKVキャッシュメモリ使用量を6倍削減する3ビット量子化手法「TurboQuant」を公開しました。NVIDIA H100 GPUでは、4ビットのアテンション計算が32ビットモデルと比較して最大8倍高速です。GemmaとMistralをLongBench、Needle In A Haystack、ZeroSCROLLSでテストした結果、この手法は最高の性能を発揮しました。KAISTおよびNYUのAmir ZandiehとVahab Mirrokniによって開発されたこの論文は、ICLR 2026で発表される予定です。オンチェーンデータによると、効率性の向上が採用を後押しし、注目すべきアルトコインへの関心が高まっています。

据 1M AI News 监测、グーグル研究院は量子化圧縮アルゴリズムTurboQuantを発表し、大規模言語モデルのKVキャッシュを3ビットに圧縮し、メモリ使用量を最低6倍削減し、トレーニングやファインチューニングを必要とせず、モデルの精度を損なわない。4ビットモードでは、NVIDIA H100 GPU上でアテンション計算の速度が32ビット非量子化ベースラインと比較して最大8倍向上する。

研究チームは、LongBench、Needle In A Haystack、ZeroSCROLLS などの長コンテキストベンチマークで Gemma および Mistral モデルを用いて検証し、TurboQuant はすべてのテストで最良のパフォーマンスを達成しました。このアルゴリズムは2つのサブアルゴリズムから構成されています：PolarQuant は極座標変換により従来の量子化手法のメモリオーバーヘッドを削減し、QJL は残差誤差を1ビットで補正します。

この研究は、グーグル研究院のアミール・ザンディーと副社長兼グーグルフェローのヴァハブ・ミロルニが主導し、韓国のKAISTおよびニューヨーク大学と協力して実施され、ICLR 2026で発表される予定です。グーグルは、この技術の主な応用の1つが、GeminiなどのモデルのKVキャッシュボトルネックを解決することであると述べています。

出典:原文を表示

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。