Ramp Labs propone una nueva solución de compartición de memoria entre múltiples agentes, reduciendo el uso de tokens hasta en un 65%

KuCoinFlash

Momento del lanzamiento: 11/04/2026, 5:20:46

Resumen

Ramp Labs, una empresa de infraestructura de IA, ha propuesto una nueva solución de compartir memoria entre múltiples agentes llamada 'Latent Briefing' para reducir el uso de tokens hasta en un 65%. El método comprime las cachés KV de modelos grandes, mejorando la eficiencia sin pérdida de precisión. En las pruebas de LongBench v2, el consumo de tokens disminuyó un 65%, con un ahorro mediano del 49% para textos de longitud media. La precisión aumentó tres puntos porcentuales, y la compresión tomó solo 1,7 segundos, 20 veces más rápido. El sistema utiliza a Claude Sonnet 4 como orquestador y Qwen3-14B como modelo trabajador. La solución se alinea con el cumplimiento de MiCA y apoya las iniciativas de CFT al mejorar la transparencia operativa.

Noticias de ME: el 11 de abril (UTC+8), la empresa de infraestructura de IA Ramp Labs publicó su investigación «Latent Briefing», que logra un intercambio eficiente de memoria entre sistemas de múltiples agentes mediante la compresión directa del caché KV de modelos grandes, reduciendo significativamente el consumo de tokens sin perder precisión. En las arquitecturas de múltiples agentes dominantes, el orquestador descompone la tarea y llama repetidamente a los modelos trabajadores; a medida que la cadena de inferencia se extiende, el consumo de tokens crece exponencialmente. La idea central de Latent Briefing es utilizar el mecanismo de atención para identificar las partes realmente clave del contexto y descartar directamente la información redundante en la capa de representación, en lugar de depender de resúmenes lentos de LLM o recuperaciones RAG inestables. En las pruebas de referencia LongBench v2, este método destacó: el consumo de tokens del modelo trabajador se redujo un 65%, la mediana de ahorro de tokens en documentos de longitud media (32k a 100k) alcanzó un 49%, la precisión general mejoró aproximadamente 3 puntos porcentuales respecto a la línea base, y el tiempo adicional por compresión fue solo de aproximadamente 1.7 segundos, unos 20 veces más rápido que el algoritmo original. Los experimentos utilizaron a Claude Sonnet 4 como orquestador y Qwen3-14B como modelo trabajador, cubriendo escenarios con diversos tipos de documentos, como artículos académicos, documentos legales, novelas e informes gubernamentales. La investigación también descubrió que el umbral óptimo de compresión varía según la dificultad de la tarea y la longitud del documento: los problemas complejos se benefician de una compresión agresiva para filtrar el ruido de razonamiento especulativo, mientras que los documentos largos se prestan mejor a una compresión ligera para conservar información clave dispersa. (Fuente: BlockBeats)

Fuente:Mostrar original

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.