Experimento de compressão de memória do GPT-5.4 mostra queda na precisão para 54%

De acordo com o monitoramento da Beating, o estudante de doutorado em ciência da computação da Universidade de Illinois, Dylan Zhang, realizou uma série de experimentos de memória de Agent, cujos resultados apontam para uma conclusão inesperada: fazer o modelo resumir repetidamente suas experiências pode fazer com que ele se lembre cada vez pior. O resultado mais surpreendente veio do ARC-AGI: os pesquisadores selecionaram 19 perguntas que o GPT-5.4 conseguia responder corretamente sem memória, e então forneceram ao modelo as soluções reais dessas perguntas, pedindo-lhe que escrevesse “resumos de experiência” enquanto as observava. Teoricamente, isso seria como revisar com os materiais abertos; no entanto, após várias rodadas de compressão de memória, a precisão do mesmo modelo caiu de 100% para 54%. A trajetória original estava correta; o problema real ocorreu quando o modelo reescreveu a trajetória correta como uma experiência geral. Pior ainda, essa degradação de memória não é um caso isolado. Na tarefa de compras online WebShop, o método de memória AWM obteve uma pontuação de 0,64 ao consumir 8 trajetórias de especialistas, mas essa pontuação caiu para 0,20 quando o número de trajetórias aumentou para 128 — exatamente retornando ao baseline sem memória. Ou seja, quanto mais memória se acumula, mais o benefício é anulado por si mesmo. O problema não está em “ter pouca experiência”, mas em “resumir com muita frequência”. Os resumos escritos pelos grandes modelos não são registros objetivos; cada resumo é uma nova geração. No final, os pressupostos específicos são excluídos, as regras de diferentes tarefas são misturadas e os detalhes que originalmente orientavam as ações tornam-se frases vagas como “priorizar a ação mais direta” ou “usar a ferramenta correta” — aparentemente corretas, mas na prática inúteis. Um exemplo extremo apresentado no artigo mostra que 50 memórias estruturadas foram fundidas em apenas uma, comprimindo as diferenças entre múltiplas tarefas em um único processo geral; na próxima avaliação, isso resultou na perda direta de 6 a 13 amostras bem-sucedidas. A recomendação dos autores é bastante contida: não pressione o Agent para escrever um “caderno de erros” a cada rodada. Uma abordagem mais segura é preservar as trajetórias de operação originais selecionadas e apenas abstrair resumos quando realmente necessário. Nos experimentos, a abordagem que mantinha apenas os episódios originais e desativava a abstração resumida alcançou ou superou os métodos de memória comprimida testados em vários benchmarks de Agent. Para desenvolvedores, essa conclusão é direta: mostrar ao modelo o que realmente foi feito geralmente é mais útil do que fazê-lo decorar um conjunto de regras abstratas.