Ramp Labs предлагает новое решение для совместного использования памяти многими агентами, использование токенов сокращено до 65%

KuCoinFlash

Время выхода: 11.04.2026, 05:20:46

Сводка

Ramp Labs, компания по разработке ИИ-инфраструктуры, предложила новое решение для совместного использования памяти многими агентами под названием «Latent Briefing», позволяющее сократить использование токенов до 65%. Метод сжимает большие KV-кэши моделей, повышая эффективность без потери точности. В тестах LongBench v2 потребление токенов снизилось на 65%, а медианная экономия для текстов средней длины составила 49%. Точность повысилась на 3 процентных пункта, а время сжатия составило всего 1,7 секунды — в 20 раз быстрее. Система использует Claude Sonnet 4 в качестве оркестратора и Qwen3-14B в качестве рабочей модели. Решение соответствует требованиям MiCA и поддерживает инициативы CFT за счет повышения операционной прозрачности.

ME News сообщает, 11 апреля (UTC+8) компания Ramp Labs, специализирующаяся на инфраструктуре ИИ, опубликовала исследование «Latent Briefing», позволяющее обеспечить эффективный обмен памятью между агентами за счет прямого сжатия KV-кэша крупных моделей, значительно сокращая потребление токенов без потери точности. В типичных архитектурах многоагентных систем оркестратор разбивает задачу и многократно вызывает модели-исполнители; по мере удлинения цепочки вывода потребление токенов растет экспоненциально. Основная идея Latent Briefing заключается в использовании механизма внимания для выявления действительно ключевых элементов контекста и прямого удаления избыточной информации на уровне представлений, вместо медленных резюме LLM или нестабильных RAG-поисков. На базовом наборе данных LongBench v2 метод продемонстрировал впечатляющие результаты: потребление токенов исполнителями снизилось на 65%, медиана экономии токенов для документов средней длины (от 32k до 100k) составила 49%, общая точность повысилась примерно на 3 процентных пункта по сравнению с базовой линией, а дополнительное время на каждое сжатие составило всего около 1,7 секунды — примерно в 20 раз быстрее исходного алгоритма. Эксперименты проводились с использованием Claude Sonnet 4 в качестве оркестратора и Qwen3-14B в качестве модели-исполнителя, охватывая различные типы документов: научные статьи, юридические тексты, романы и государственные отчеты. Исследование также выявило, что оптимальный порог сжатия варьируется в зависимости от сложности задачи и длины документа: для сложных задач подходит агрессивное сжатие для фильтрации шума спекулятивных рассуждений, тогда как для длинных документов предпочтительнее легкое сжатие для сохранения рассеянной ключевой информации. (Источник: BlockBeats)

Источник:Показать оригинал

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.