Ramp Labs запропонувала новий розв’язок для спільного використання пам’яті між агентами, використання токенів зменшено до 65%

KuCoinFlash

Час випуску: 11.04.2026, 05:20:46

Поділитися

Короткий зміст

Ramp Labs, компанія з інфраструктури ШІ, запропонувала новий розв’язок для спільного використання пам’яті між агентами під назвою «Latent Briefing», який дозволяє зменшити використання токенів до 65%. Метод стискає великі KV-кеші моделей, покращуючи ефективність без втрати точності. У тестах LongBench v2 споживання токенів зменшилося на 65%, а медіанна економія для текстів середньої довжини склала 49%. Точність зросла на 3 відсоткових пункти, а стиснення зайняло лише 1,7 секунди — у 20 разів швидше. Система використовує Claude Sonnet 4 як оркестратора та Qwen3-14B як модель-виконавця. Розв’язок відповідає вимогам MiCA та підтримує ініціативи CFT завдяки підвищенню операційної прозорості.

ME News повідомляє, 11 квітня (UTC+8) компанія Ramp Labs, що розробляє інфраструктуру для ШІ, опублікувала дослідження «Latent Briefing», яке забезпечує ефективний обмін пам’яттю між багатоагентними системами шляхом прямого стиснення KV-кешу великих моделей, значно зменшуючи споживання токенів без втрати точності. У типових багатоагентних архітектурах оркестратор (Orchestrator) розбиває завдання і повторно викликає моделі-виконавці (Worker), із збільшенням ланцюжка висновків споживання токенів зростає експоненційно. Основна ідея Latent Briefing полягає у використанні механізму уваги для визначення справді ключових частин контексту та безпосереднього видалення надлишкової інформації на рівні представлення, а не за допомогою повільних сумаризацій LLM або нестабільних RAG-пошуків. У тестах на базі LongBench v2 цей метод показав відмінні результати: споживання токенів моделлю-виконавцем зменшилося на 65%, медіана економії токенів для документів середньої довжини (32k–100k) становить 49%, загальна точність зросла приблизно на 3 процентних пункти порівняно з базовою моделлю, а додатковий час на кожне стиснення становить лише близько 1,7 секунди — це приблизно у 20 разів швидше, ніж у оригінального алгоритму. Експерименти проводилися з використанням Claude Sonnet 4 як оркестратора та Qwen3-14B як моделі-виконавця, охоплюючи різноманітні сценарії документів: наукові статті, правові документи, романи та урядові звіти. Дослідження також виявило, що оптимальний поріг стиснення залежить від складності завдання та довжини документа — для складних завдань підходять агресивніші стиснення для фільтрації шуму спекулятивних міркувань, тоді як для довгих документів краще підходять легкі стиснення для збереження розсіяної ключової інформації. (Джерело: BlockBeats)

Джерело:Показати оригінал

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.