Ramp Labs propose une nouvelle solution de partage de mémoire entre agents multiples, avec une réduction de l'utilisation des jetons jusqu'à 65 %

KuCoinFlash

Date de parution : 11/04/2026 05:20:46

Résumé

Ramp Labs, une entreprise d'infrastructure IA, a proposé une nouvelle solution de partage de mémoire multi-agent appelée « Latent Briefing » pour réduire l'utilisation de jetons jusqu'à 65 %. Cette méthode compresse les caches KV des grands modèles, améliorant l'efficacité sans perte de précision. Dans les tests LongBench v2, la consommation de jetons a diminué de 65 %, avec une économie médiane de 49 % pour les textes de longueur moyenne. La précision a augmenté de 3 points de pourcentage, et la compression n'a pris que 1,7 seconde — 20 fois plus vite. Le système utilise Claude Sonnet 4 comme orchestrateur et Qwen3-14B comme modèle de travail. La solution est conforme à MiCA et soutient les initiatives CFT en améliorant la transparence opérationnelle.

Selon les nouvelles de ME, le 11 avril (UTC+8), l'entreprise d'infrastructure IA Ramp Labs a publié ses recherches intitulées « Latent Briefing », qui permettent un partage efficace de la mémoire entre systèmes multi-agents en compressant directement le cache KV des grands modèles, réduisant considérablement la consommation de tokens sans perte de précision. Dans les architectures multi-agents courantes, l'orchestrateur décompose les tâches et appelle répétitivement les modèles travailleurs ; à mesure que la chaîne d'inférence s'allonge, la consommation de tokens augmente de manière exponentielle. L'idée centrale de Latent Briefing consiste à utiliser l'attention pour identifier les éléments clés du contexte, puis à éliminer directement les informations redondantes au niveau des représentations, plutôt que de s'appuyer sur des résumés LLM lents ou des recherches RAG instables. Sur le benchmark LongBench v2, cette méthode se distingue : la consommation de tokens des modèles travailleurs est réduite de 65 %, avec une médiane d'économie de tokens de 49 % pour les documents de longueur moyenne (32k à 100k), une amélioration de la précision globale d'environ 3 points de pourcentage par rapport à la ligne de base, et un temps supplémentaire d'environ 1,7 seconde par compression, soit environ 20 fois plus rapide que l'algorithme original. Les expériences ont été menées avec Claude Sonnet 4 comme orchestrateur et Qwen3-14B comme modèle travailleur, couvrant divers scénarios de documents tels que des articles académiques, des documents juridiques, des romans et des rapports gouvernementaux. Les recherches ont également révélé que le seuil optimal de compression varie selon la difficulté de la tâche et la longueur du document : les tâches complexes bénéficient d'une compression agressive pour filtrer le bruit des inférences spéculatives, tandis que les documents longs sont mieux adaptés à une compression légère afin de préserver les informations clés dispersées. (Source : BlockBeats)

Source:Afficher l'original

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.