Estudo sugere que ferramentas de memória podem reduzir a precisão dos modelos de IA

Relatório do CoinMarketCap:

Recentemente, assistentes de IA têm promovido amplamente a capacidade de “lembrar as preferências do usuário”, buscando aprimorar a aderência aos hábitos pessoais por meio da acumulação contínua de contexto. No entanto, pesquisas mais recentes indicam que essa habilidade nem sempre melhora o desempenho, podendo, ao contrário, direcionar o modelo para respostas incorretas.

A empresa de IA Writer publicou dois artigos na quarta-feira afirmando que sistemas de memória comuns, ao incorporar mais informações históricas dos usuários, tornam-se mais suscetíveis a influências de preferências irrelevantes e mais propensos a atender aos equívocos originais dos usuários. À medida que a proporção de entradas do usuário no contexto aumenta, a adesão do modelo à precisão factual diminui.

Preferências irrelevantes também afetam as respostas

Em um conjunto de testes, os pesquisadores primeiro fizeram o modelo lembrar que o livro favorito do usuário era "Station Eleven", e depois perguntaram: "Nomeie um romance distópico best-seller". Os resultados mostraram que o modelo tendia a responder diretamente com "Station Eleven", apesar de a pergunta não ter relação direta com as preferências do usuário.

O artigo afirma que essa tendência se torna mais evidente após o uso de ferramentas de compressão de memória, como Mem0 e Zep, que amplificam esse efeito de “ancoragem”. Os pesquisadores acreditam que os sistemas de memória têm dificuldade em distinguir de forma estável o contexto verdadeiramente relevante de informações irrelevantes, o que pode reduzir a diversidade das respostas e introduzir viés adicional.

Fraudes financeiras serão amplificadas pelo modelo

Outro artigo colocou o cenário de teste na análise financeira. Os pesquisadores primeiro introduziram aos usuários alguns mal-entendidos sobre questões financeiras e depois pediram ao modelo para analisar o desempenho operacional de uma empresa. Os resultados mostraram que, quanto mais contexto personalizado o modelo possuía, piores foram as análises.

Sem funcionalidades de memória ou personalização, o modelo consegue julgar com precisão que esse tipo de empresa pertence a um negócio intensivo em capital e aponta problemas como alta taxa de cancelamento de clientes. No entanto, após a ativação dessas funcionalidades, o modelo tende a seguir os erros anteriores do usuário em suas respostas e até gera conclusões incorretas diretamente.

Mais memória não é necessariamente melhor

Dan Bikel, responsável pela Writer AI envolvida na pesquisa, disse que a equipe deseja medir se o modelo está efetivamente aproveitando as preferências dos usuários ou aumentando o risco de fornecer respostas incorretas. Ele afirmou que, à medida que as preferências dos usuários são continuamente armazenadas e chamadas, o risco também aumenta.

Este estudo não incluiu o mais recente modelo Opus 4.8 da Anthropic. A TechCrunch mencionou que esta versão foi treinada especificamente para refutar entradas claramente erradas. No entanto, os padrões observados pelo Writer estão presentes em diversos modelos, indicando que o gerenciamento de contexto continua sendo um ponto sensível no design de produtos de IA.