Tongyi Lab lança o VimRAG: Framework Multimodal RAG com Gráfico de Memória

iconKuCoinFlash
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
A Tongyi Lab lançou um novo framework multimodal RAG, o VimRAG, em 10 de abril (UTC+8), baseado no MetaEra. O framework resolve o problema do "ponto cego de estado" convertendo o histórico linear em um grafo de memória. Ele utiliza uma estrutura dinâmica DAG para rastrear caminhos de raciocínio e reduzir recuperações redundantes. As notícias on-chain destacam a integração do GGPO para atribuição de crédito e alocação de tokens. A versão Qwen3-VL-8B-Instruct lidera em benchmarks como SlideVQA e MMLongBench. A atualização suporta tarefas complexas, de longa duração e multimodais. Novas listagens de tokens podem se beneficiar dessa abordagem de raciocínio estruturado.

Notícia da ME, em 10 de abril (UTC+8), o Laboratório Tongyi da Alibaba lançou oficialmente o novo framework multimodal RAG, o VimRAG, focado em resolver o problema persistente de "zonas cegas de estado" nos sistemas atuais. O VimRAG substitui o histórico linear tradicional por um grafo de memória multimodal (Multimodal Memory Graph), organizando o processo de raciocínio com uma estrutura de grafo direcionado acíclico (DAG), eliminando efetivamente buscas redundantes e rastreando integralmente os caminhos explorados. Introduzindo o Codificador de Memória Visual Modulado por Grafo (Graph-Modulated Visual Memory Encoding), permite alocação adaptativa de tokens para dados visuais de alta carga, como imagens, combinado com o mecanismo GGPO para atribuição de crédito em nível fino, aumentando a precisão da atribuição de raciocínio. De acordo com os dados de avaliação publicados, o VimRAG destacou-se em vários benchmarks multimodais, como SlideVQA, MMLongBench e LVBench, com a versão Qwen3-VL-8B-Instruct liderando em pontuação geral em comparação com soluções similares. O objetivo do VimRAG é elevar o RAG multimodal da fase de "busca simples" para o nível de "raciocínio estruturado e confiável", oferecendo uma solução sistêmica mais robusta para processar documentos longos e complexos, bem como cenários híbridos multimodais. (Fonte: BlockBeats)

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.