Ramp Labs、複数エージェントのメモリ共有ソリューションを提案。トークン使用量を最大65％削減

KuCoinFlash

公開時期： 2026/04/11 5:20:46

概要

AIインフラ企業のRamp Labsは、トークン使用量を最大65％削減するための新しいマルチエージェントメモリ共有ソリューション「Latent Briefing」を提案しました。この手法は、大規模モデルのKVキャッシュを圧縮し、精度を損なうことなく効率を向上させます。LongBench v2のテストでは、トークン消費量が65％減少し、中程度の長さのテキストでは中央値で49％の削減が実現されました。精度は3ポイント向上し、圧縮にはわずか1.7秒（20倍高速）かかりました。このシステムはClaude Sonnet 4をオーケストレーター、Qwen3-14Bをワーカーモデルとして使用しています。このソリューションはMiCA準拠に沿っており、運用の透明性を高めることでCFTイニシアチブを支援します。

MEニュース、4月11日（UTC+8）、AIインフラ企業のRamp Labsが研究結果「Latent Briefing」を発表。この手法は、大規模モデルのKVキャッシュを直接圧縮することで、マルチエージェントシステム間での効率的な記憶共有を実現し、精度を損なうことなくToken消費量を大幅に削減する。主流のマルチエージェントアーキテクチャでは、オーケストレーターがタスクを分解し、ワーカーモデルを繰り返し呼び出すため、推論パスが長くなるほどToken使用量が指数的に増加する。Latent Briefingの核心的なアイデアは、アテンションメカニズムを用いて文脈中の真正に重要な部分を特定し、遅いLLM要約や不安定なRAG検索に頼らず、表現層で冗長な情報を直接除去することである。LongBench v2ベンチマークテストでは、この手法は顕著な成果を収めた：ワーカーモデルのToken消費量が65%削減され、中程度の長さのドキュメント（32k～100k）におけるToken削減の中央値は49%に達し、全体的な精度はベースラインより約3ポイント向上した。また、1回の圧縮にかかる追加時間は約1.7秒であり、元のアルゴリズムと比較して約20倍高速化された。実験では、オーケストレーターにClaude Sonnet 4、ワーカーモデルにQwen3-14Bを使用し、学術論文、法律文書、小説、政府報告書など多様なドキュメントタイプをカバーした。研究によると、最適な圧縮閾値はタスクの難易度やドキュメントの長さによって異なる。難易度の高いタスクには、投機的な推論ノイズを除去するために積極的な圧縮が適し、長いドキュメントには分散した重要な情報を保持するために軽度の圧縮が適している。（出典：BlockBeats）

出典:原文を表示

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。