Ramp Labs 提出新型多代理記憶共享解決方案，代幣使用量最多減少 65%

KuCoinFlash

發佈時間： 11/04/2026 05:20:46

精華摘要

Ramp Labs 是一家 AI 基礎設施公司，提出了一種名為「Latent Briefing」的多代理記憶共享解決方案，可將代幣使用量減少高達 65%。該方法壓縮大型模型的 KV 緩存，在不損失準確性的前提下提升效率。在 LongBench v2 測試中，代幣消耗量下降了 65%，中等長度文本的中位數節省達 49%。準確率提升了 3 個百分點，壓縮僅需 1.7 秒——快了 20 倍。該系統以 Claude Sonnet 4 作為協調器，Qwen3-14B 作為工作模型。此解決方案符合 MiCA 合規要求，並透過提升運營透明度支持 CFT 計畫。

ME News 消息，4 月 11 日（UTC+8），AI 基礎設施公司 Ramp Labs 發布研究成果「Latent Briefing」，透過直接壓縮大模型 KV 緩存，實現多智能體系統間的高效記憶共享，在不損失準確率的前提下大幅降低 Token 消耗。在主流多智能體架構中，編排者（Orchestrator）將任務拆解並反覆調用工作者（Worker）模型，隨著推理鏈路不斷延伸，Token 用量呈指數級膨脹。Latent Briefing 的核心思路是：藉助注意力機制識別上下文中真正關鍵的部分，在表示層直接丟棄冗餘資訊，而非依賴速度慢的 LLM 摘要或穩定性差的 RAG 檢索。在 LongBench v2 基準測試中，該方法表現亮眼：Worker 模型 Token 消耗降低 65%，中等長度文件（32k 至 100k）的 Token 節省中位數達 49%，整體準確率較基線提升約 3 個百分點，而每次壓縮的額外耗時僅約 1.7 秒，較原始算法提速約 20 倍。實驗以 Claude Sonnet 4 作為編排者、Qwen3-14B 作為工作者模型，涵蓋學術論文、法律文書、小說及政府報告等多類文件場景。研究還發現，最優壓縮閾值因任務難度和文件長度而異——難題適合激進壓縮以過濾投機性推理噪聲，長文件則更適合輕度壓縮以保留分散的關鍵資訊。（來源：BlockBeats）

來源:顯示原文

免責聲明：本頁面資訊可能來自第三方，不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用，不構成任何形式的陳述或保證，也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏，或因使用該資訊而導致的任何結果不承擔任何責任。虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息，請參閱我們的使用條款和風險披露。