O Framework MeMo do MIT aumenta o desempenho dos LLMs em 26%

Ensinar algo novo a um modelo de linguagem de grande porte após o treinamento é, sendo generoso, um problema. Ou você retreina tudo (caro), insere documentos na janela de contexto (limitada) ou adiciona sistemas de recuperação que frequentemente falham em consultas complexas. Pesquisadores do MIT CSAIL, da Universidade Nacional de Cingapura e do A*STAR acabaram de publicar um framework que contorna os três problemas.

O framework é chamado MeMo, abreviação de Memory as a Model. Foi detalhado em um artigo lançado em 20 de maio de 2026 (arXiv:2605.15156), e a ideia central é elegantemente simples: em vez de forçar novos conhecimentos em um LLM existente, treine um modelo separado, menor, cujo único papel é lembrar coisas. O LLM principal permanece congelado. Ele simplesmente faz perguntas ao modelo de memória quando precisa de respostas.

Como o MeMo realmente funciona

Em termos técnicos, o MeMo utiliza uma pipeline de síntese QA de reflexão em cinco etapas para treinar o modelo Memory em novos conhecimentos de domínio. No tempo de inferência, o LLM Executivo congelado, como Qwen2.5 ou Gemini-3-Flash, consulta o modelo Memory por meio de um protocolo estruturado de múltiplas rodadas. O modelo Memory internaliza as informações, em vez de simplesmente recuperar trechos de texto, o que o distingue das configurações tradicionais de geração aumentada por recuperação (RAG).

Essa arquitetura evita o esquecimento catastrófico, o fenômeno em que a atualização de uma rede neural com novos dados faz com que ela perca capacidades previamente aprendidas. Também significa que você nunca precisa reajustar o grande e caro modelo Executive quando novas informações chegam. Você apenas atualiza o menor modelo Memory.

Anúncio

Os benchmarks realizados em conjuntos de dados incluindo BrowseComp-Plus, NarrativeQA e MuSiQue mostraram melhorias de desempenho de até 26,73% quando os pesquisadores substituíram os modelos Executive pelo Gemini-3-Flash, sem retrainar o componente Memory. O modelo Memory, uma vez treinado, funcionou em diferentes LLMs Executive como um adaptador universal.

Essa compatibilidade plug-and-play se estende a ambos os LLMs de código aberto e fechado. Você pode treinar um modelo Memory uma única vez e implantá-lo com qualquer modelo de ponta que sua organização preferir, ou trocar modelos Executive à medida que versões melhores se tornem disponíveis. A camada de conhecimento persiste de forma independente.

RAG, por comparação, possui fraquezas bem documentadas. É sensível a ruídos nos documentos recuperados, tem dificuldades com raciocínio multi-documento e apresenta degradação quando as perguntas exigem a síntese de informações de várias fontes. A abordagem do MeMo, que codifica o conhecimento nos pesos do modelo em vez de recuperar texto bruto, parece lidar com esses cenários de forma mais robusta.

Por que isso é importante para a infraestrutura de IA em criptomoedas

Nenhum token de blockchain ou projeto específico de cripto é mencionado na pesquisa do MeMo. Seja claro sobre isso desde o início.

A análise on-chain é um dos casos de uso mais óbvios. Agentes de IA que monitoram protocolos DeFi, rastreiam atividades de carteiras ou sinalizam transações suspeitas precisam de conhecimento constantemente atualizado sobre novos contratos, propostas de governança e condições de mercado. Uma arquitetura do tipo MeMo permitiria a um agente de análise DeFi manter um armazenamento de conhecimento persistente e atualizável em seu modelo de Memória, enquanto executa inferência por meio do melhor LLM de ponta disponível para oferecer capacidades de raciocínio superiores. Quando um protocolo altera seus parâmetros, você atualiza o modelo de Memória. O Executivo permanece inalterado.

O aspecto do custo operacional é significativo. Re-treinar grandes modelos é uma das maiores despesas para aplicações cripto nativas de IA, e é um custo recorrente que aumenta conforme a frequência com que os dados subjacentes mudam. Um framework que elimine a necessidade de re-treinamento, mantendo ou melhorando o desempenho, pode reduzir significativamente o custo de operar agentes de IA sofisticados.

O que os investidores devem observar

O RAG tem sido a abordagem padrão para manter os LLMs atualizados, e todo um ecossistema de bancos de dados vetoriais, modelos de incorporação e pipelines de recuperação foi construído em torno dele. Se a abordagem do MeMo se mostrar mais eficaz em escala, parte dessa infraestrutura se tornará menos essencial.

Um risco a ser observado: os benchmarks do MeMo foram realizados em conjuntos de dados acadêmicos. O desempenho no mundo real em ambientes ruidosos e adversários, como mercados de criptomoedas, pode ser diferente.