El experimento de compresión de memoria GPT-5.4 muestra que la precisión cae al 54%

Según el monitoreo de Beating, el estudiante de doctorado en ciencias de la computación de la Universidad de Illinois, Dylan Zhang, realizó una serie de experimentos de memoria de agentes, cuyos resultados apuntan a una conclusión inesperada: hacer que el modelo resuma repetidamente sus experiencias puede hacer que recuerde peor. El resultado más sorprendente proviene de ARC-AGI: los investigadores seleccionaron 19 preguntas que GPT-5.4 podía resolver correctamente sin memoria, y luego les proporcionaron las soluciones reales para que el modelo las observara mientras escribía "resúmenes de experiencia". En teoría, esto equivalía a un estudio con apuntes abiertos; sin embargo, tras múltiples rondas de compresión de memoria, la precisión del mismo modelo cayó del 100% al 54%. La trayectoria original no tenía errores; el verdadero problema ocurrió cuando el modelo reescribió la trayectoria correcta como una experiencia general. Aún peor, esta degradación de la memoria no es un caso aislado. En la tarea de compras en línea WebShop, el método de memoria AWM obtuvo una puntuación de 0.64 al incorporar 8 trayectorias de expertos, pero esta cayó a 0.20 cuando se aumentó a 128 trayectorias, justo volviendo al nivel base sin memoria. Es decir, cuanto más se acumula la memoria, más se anula uno mismo su propio beneficio. El problema no está en "tener demasiada poca experiencia", sino en "resumir demasiado a menudo". Las experiencias que escriben los grandes modelos no son registros objetivos; cada resumen es una nueva generación. Al final, los contextos específicos se eliminan, las reglas de diferentes tareas se mezclan y los detalles que originalmente guiaban las acciones se convierten en frases vacías como "priorizar la acción más directa" o "usar la herramienta correcta", que parecen correctas pero son inútiles. Un ejemplo extremo mostrado en el artículo indica que 50 memorias estructuradas se fusionaron en una sola, comprimiendo las diferencias entre múltiples tareas en un único proceso general; en la siguiente evaluación, se perdieron entre 6 y 13 muestras exitosas. Los autores ofrecen una recomendación moderada: no obligues al agente a escribir un "cuaderno de errores" tras cada ronda. Un enfoque más seguro es conservar las trayectorias de operaciones originales seleccionadas y realizar resúmenes abstractos solo cuando sea realmente necesario. En los experimentos, la estrategia que conservaba únicamente los episodios originales y desactivaba los resúmenes abstractos igualó o superó los métodos de memoria comprimida evaluados en múltiples benchmarks de agentes. Para los desarrolladores, esta conclusión es clara: mostrarle al modelo lo que realmente hizo suele ser más útil que hacerle memorizar una serie de reglas abstractas.