Tongyi Lab lance VimRAG : un cadre RAG multimodal avec graphe de mémoire

KuCoinFlash

Date de parution : 10/04/2026 01:21:36

Résumé

Le laboratoire Tongyi a lancé le 10 avril (UTC+8) un nouveau cadre multimodal RAG, VimRAG, basé sur MetaEra. Ce cadre résout le problème du « point aveugle d'état » en transformant l'historique linéaire en un graphe de mémoire. Il utilise une structure dynamique DAG pour suivre les chemins de raisonnement et réduire les récupérations redondantes. Les actualités sur chaîne mettent en avant l'intégration de GGPO pour l'attribution de crédit et l'allocation de jetons. La version Qwen3-VL-8B-Instruct mène les benchmarks tels que SlideVQA et MMLongBench. Cette mise à jour prend en charge les tâches complexes, longues et multimodales. Les nouveaux jetons listés pourraient bénéficier de cette approche de raisonnement structuré.

Selon les nouvelles de ME, le 10 avril (UTC+8), le laboratoire Tongyi d'Alibaba a officiellement lancé VimRAG, un nouveau cadre multimodal RAG conçu pour résoudre de manière décisive le problème persistant des « zones d'aveuglement d'état » dans les systèmes existants. VimRAG remplace l'historique linéaire traditionnel par un graphe de mémoire multimodale (Multimodal Memory Graph), organisant le processus d'inférence selon une structure de graphe orienté acyclique (DAG) pour éliminer efficacement les recherches redondantes et suivre en temps réel les chemins d'exploration. Introduisant le codage de mémoire visuelle modulé par graphe (Graph-Modulated Visual Memory Encoding), il permet une allocation adaptative de tokens pour les données visuelles à fort volume, telles que les images, tout en intégrant le mécanisme GGPO pour une attribution de crédit fine-grain, améliorant ainsi la précision de l'inférence. Selon les données d'évaluation publiées, VimRAG obtient des résultats remarquables sur plusieurs benchmarks multimodaux, notamment SlideVQA, MMLongBench et LVBench, avec la version Qwen3-VL-8B-Instruct affichant un score global supérieur à ses concurrents. L'objectif de VimRAG est de faire évoluer le RAG multimodal de la « simple recherche » vers l'« inférence structurée et fiable », offrant une solution systémique plus robuste pour traiter des documents longs et complexes ainsi que des scénarios mixtes multimodaux. (Source : BlockBeats)

Source:Afficher l'original

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.