L'expérience de compression de mémoire GPT-5.4 montre une baisse de la précision à 54 %

Selon les observations de Beating, le doctorant en informatique de l'Université de l'Illinois, Dylan Zhang, a mené une série d'expériences sur la mémoire des agents, aboutissant à une conclusion surprenante : faire répéter au modèle la synthèse de ses expériences peut le rendre de moins en moins performant. Les résultats les plus frappants proviennent de ARC-AGI : les chercheurs ont sélectionné 19 questions que GPT-5.4 pouvait résoudre parfaitement sans mémoire, puis leur ont fourni les solutions réelles, en demandant au modèle d'écrire des « synthèses d'expérience » en les regardant. En théorie, cela équivaut à réviser avec les documents ouverts ; mais après plusieurs cycles de compression de la mémoire, le taux de précision du même modèle est tombé de 100 % à 54 %. La trajectoire originale n'était pas erronée ; le problème réside dans l'étape où le modèle réécrit la trajectoire correcte en une expérience générale. Encore pire : cette dégradation de la mémoire n'est pas un cas isolé. Dans la tâche WebShop d'achat en ligne, la méthode AWM atteint un score de 0,64 avec 8 trajectoires d'experts, mais ce score chute à 0,20 lorsque le nombre de trajectoires passe à 128 — exactement au niveau de la base sans mémoire. Autrement dit, plus on accumule de mémoire, plus les gains sont annulés par elle-même. Le problème ne réside pas dans « trop peu d'expériences », mais dans « trop de synthèses ». Les expériences écrites par les grands modèles ne sont pas des journaux objectifs ; chaque synthèse est une nouvelle génération. À la fin, les prémisses spécifiques sont supprimées, les règles de différentes tâches sont mélangées, et les détails utiles pour guider l'action deviennent des généralités vides comme « privilégier l'action la plus directe » ou « utiliser l'outil correct », qui semblent justes mais sont inutiles. Un exemple extrême présenté dans l'article montre que 50 mémoires structurées ont été fusionnées en une seule, éliminant les différences entre plusieurs tâches pour n'en conserver qu'un processus unique ; lors du prochain test, cela a entraîné la perte de 6 à 13 échantillons réussis. Les auteurs proposent une recommandation prudente : n'obligez pas l'agent à rédiger systématiquement un « carnet d'erreurs » à chaque itération. Une approche plus fiable consiste à conserver les trajectoires d'actions originales sélectionnées et à n'effectuer une abstraction que si nécessaire. Dans les expériences, la méthode qui conserve uniquement les épisodes originaux et désactive la synthèse abstraite a atteint ou dépassé les performances des méthodes de mémoire par compression testées sur plusieurs benchmarks d'agents. Pour les développeurs, cette conclusion est claire : montrer au modèle ce qu'il a réellement fait est souvent plus utile que de lui faire mémoriser un ensemble d'abstractions.