El experimento de compresión de memoria GPT-5.4 muestra que la precisión cae al 54%

icon MarsBit
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Un estudio reciente de MarsBit destaca cómo la compresión repetida de memoria puede afectar negativamente el rendimiento de los modelos de IA. Dylan Zhang, estudiante de doctorado de la Universidad de Illinois, descubrió que la precisión de GPT-5.4 en la prueba ARC-AGI bajó del 100% al 54% tras múltiples rondas de compresión. El problema surge porque los modelos reescriben soluciones correctas como reglas generalizadas, perdiendo detalles clave. Resultados similares se observaron en la tarea WebShop, donde más trayectorias expertas condujeron a un peor rendimiento. Los hallazgos sugieren mantener los datos de operación crudos y limitar resúmenes abstractos. Los traders que siguen altcoins para observar podrían encontrar los datos on-chain cada vez más útiles para evaluar herramientas impulsadas por IA.

Según el monitoreo de Beating, el estudiante de doctorado en ciencias de la computación de la Universidad de Illinois, Dylan Zhang, realizó una serie de experimentos de memoria de agentes, cuyos resultados apuntan a una conclusión inesperada: hacer que el modelo resuma repetidamente sus experiencias puede hacer que recuerde peor. El resultado más sorprendente proviene de ARC-AGI: los investigadores seleccionaron 19 preguntas que GPT-5.4 podía resolver correctamente sin memoria, y luego les proporcionaron las soluciones reales para que el modelo las observara mientras escribía "resúmenes de experiencia". En teoría, esto equivalía a un estudio con apuntes abiertos; sin embargo, tras múltiples rondas de compresión de memoria, la precisión del mismo modelo cayó del 100% al 54%. La trayectoria original no tenía errores; el verdadero problema ocurrió cuando el modelo reescribió la trayectoria correcta como una experiencia general. Aún peor, esta degradación de la memoria no es un caso aislado. En la tarea de compras en línea WebShop, el método de memoria AWM obtuvo una puntuación de 0.64 al incorporar 8 trayectorias de expertos, pero esta cayó a 0.20 cuando se aumentó a 128 trayectorias, justo volviendo al nivel base sin memoria. Es decir, cuanto más se acumula la memoria, más se anula uno mismo su propio beneficio. El problema no está en "tener demasiada poca experiencia", sino en "resumir demasiado a menudo". Las experiencias que escriben los grandes modelos no son registros objetivos; cada resumen es una nueva generación. Al final, los contextos específicos se eliminan, las reglas de diferentes tareas se mezclan y los detalles que originalmente guiaban las acciones se convierten en frases vacías como "priorizar la acción más directa" o "usar la herramienta correcta", que parecen correctas pero son inútiles. Un ejemplo extremo mostrado en el artículo indica que 50 memorias estructuradas se fusionaron en una sola, comprimiendo las diferencias entre múltiples tareas en un único proceso general; en la siguiente evaluación, se perdieron entre 6 y 13 muestras exitosas. Los autores ofrecen una recomendación moderada: no obligues al agente a escribir un "cuaderno de errores" tras cada ronda. Un enfoque más seguro es conservar las trayectorias de operaciones originales seleccionadas y realizar resúmenes abstractos solo cuando sea realmente necesario. En los experimentos, la estrategia que conservaba únicamente los episodios originales y desactivaba los resúmenes abstractos igualó o superó los métodos de memoria comprimida evaluados en múltiples benchmarks de agentes. Para los desarrolladores, esta conclusión es clara: mostrarle al modelo lo que realmente hizo suele ser más útil que hacerle memorizar una serie de reglas abstractas.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.