Experimento de compressão de memória do GPT-5.4 mostra queda na precisão para 54%

icon MarsBit
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
Um estudo recente da MarsBit destaca como a compressão repetida de memória pode prejudicar o desempenho de modelos de IA. Dylan Zhang, estudante de doutorado da Universidade de Illinois, descobriu que a precisão do GPT-5.4 no benchmark ARC-AGI caiu de 100% para 54% após múltiplas rodadas de compressão. O problema surge porque os modelos reescrevem soluções corretas em regras generalizadas, perdendo detalhes essenciais. Resultados semelhantes apareceram na tarefa WebShop, onde trajetórias mais especializadas levaram a um desempenho pior. As descobertas sugerem manter dados brutos de operações e limitar resumos abstratos. Traders que acompanham altcoins para observar podem encontrar dados on-chain cada vez mais úteis para avaliar ferramentas impulsionadas por IA.

De acordo com o monitoramento da Beating, o estudante de doutorado em ciência da computação da Universidade de Illinois, Dylan Zhang, realizou uma série de experimentos de memória de Agent, cujos resultados apontam para uma conclusão inesperada: fazer o modelo resumir repetidamente suas experiências pode fazer com que ele se lembre cada vez pior. O resultado mais surpreendente veio do ARC-AGI: os pesquisadores selecionaram 19 perguntas que o GPT-5.4 conseguia responder corretamente sem memória, e então forneceram ao modelo as soluções reais dessas perguntas, pedindo-lhe que escrevesse “resumos de experiência” enquanto as observava. Teoricamente, isso seria como revisar com os materiais abertos; no entanto, após várias rodadas de compressão de memória, a precisão do mesmo modelo caiu de 100% para 54%. A trajetória original estava correta; o problema real ocorreu quando o modelo reescreveu a trajetória correta como uma experiência geral. Pior ainda, essa degradação de memória não é um caso isolado. Na tarefa de compras online WebShop, o método de memória AWM obteve uma pontuação de 0,64 ao consumir 8 trajetórias de especialistas, mas essa pontuação caiu para 0,20 quando o número de trajetórias aumentou para 128 — exatamente retornando ao baseline sem memória. Ou seja, quanto mais memória se acumula, mais o benefício é anulado por si mesmo. O problema não está em “ter pouca experiência”, mas em “resumir com muita frequência”. Os resumos escritos pelos grandes modelos não são registros objetivos; cada resumo é uma nova geração. No final, os pressupostos específicos são excluídos, as regras de diferentes tarefas são misturadas e os detalhes que originalmente orientavam as ações tornam-se frases vagas como “priorizar a ação mais direta” ou “usar a ferramenta correta” — aparentemente corretas, mas na prática inúteis. Um exemplo extremo apresentado no artigo mostra que 50 memórias estruturadas foram fundidas em apenas uma, comprimindo as diferenças entre múltiplas tarefas em um único processo geral; na próxima avaliação, isso resultou na perda direta de 6 a 13 amostras bem-sucedidas. A recomendação dos autores é bastante contida: não pressione o Agent para escrever um “caderno de erros” a cada rodada. Uma abordagem mais segura é preservar as trajetórias de operação originais selecionadas e apenas abstrair resumos quando realmente necessário. Nos experimentos, a abordagem que mantinha apenas os episódios originais e desativava a abstração resumida alcançou ou superou os métodos de memória comprimida testados em vários benchmarks de Agent. Para desenvolvedores, essa conclusão é direta: mostrar ao modelo o que realmente foi feito geralmente é mais útil do que fazê-lo decorar um conjunto de regras abstratas.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.