Selon les observations de Beating, le doctorant en informatique de l'Université de l'Illinois, Dylan Zhang, a mené une série d'expériences sur la mémoire des agents, aboutissant à une conclusion surprenante : faire répéter au modèle la synthèse de ses expériences peut le rendre de moins en moins performant. Les résultats les plus frappants proviennent de ARC-AGI : les chercheurs ont sélectionné 19 questions que GPT-5.4 pouvait résoudre parfaitement sans mémoire, puis leur ont fourni les solutions réelles, en demandant au modèle d'écrire des « synthèses d'expérience » en les regardant. En théorie, cela équivaut à réviser avec les documents ouverts ; mais après plusieurs cycles de compression de la mémoire, le taux de précision du même modèle est tombé de 100 % à 54 %. La trajectoire originale n'était pas erronée ; le problème réside dans l'étape où le modèle réécrit la trajectoire correcte en une expérience générale. Encore pire : cette dégradation de la mémoire n'est pas un cas isolé. Dans la tâche WebShop d'achat en ligne, la méthode AWM atteint un score de 0,64 avec 8 trajectoires d'experts, mais ce score chute à 0,20 lorsque le nombre de trajectoires passe à 128 — exactement au niveau de la base sans mémoire. Autrement dit, plus on accumule de mémoire, plus les gains sont annulés par elle-même. Le problème ne réside pas dans « trop peu d'expériences », mais dans « trop de synthèses ». Les expériences écrites par les grands modèles ne sont pas des journaux objectifs ; chaque synthèse est une nouvelle génération. À la fin, les prémisses spécifiques sont supprimées, les règles de différentes tâches sont mélangées, et les détails utiles pour guider l'action deviennent des généralités vides comme « privilégier l'action la plus directe » ou « utiliser l'outil correct », qui semblent justes mais sont inutiles. Un exemple extrême présenté dans l'article montre que 50 mémoires structurées ont été fusionnées en une seule, éliminant les différences entre plusieurs tâches pour n'en conserver qu'un processus unique ; lors du prochain test, cela a entraîné la perte de 6 à 13 échantillons réussis. Les auteurs proposent une recommandation prudente : n'obligez pas l'agent à rédiger systématiquement un « carnet d'erreurs » à chaque itération. Une approche plus fiable consiste à conserver les trajectoires d'actions originales sélectionnées et à n'effectuer une abstraction que si nécessaire. Dans les expériences, la méthode qui conserve uniquement les épisodes originaux et désactive la synthèse abstraite a atteint ou dépassé les performances des méthodes de mémoire par compression testées sur plusieurs benchmarks d'agents. Pour les développeurs, cette conclusion est claire : montrer au modèle ce qu'il a réellement fait est souvent plus utile que de lui faire mémoriser un ensemble d'abstractions.
L'expérience de compression de mémoire GPT-5.4 montre une baisse de la précision à 54 %
MarsBitPartager






Une étude récente de MarsBit met en lumière comment la compression répétée de la mémoire peut nuire aux performances des modèles d'IA. Dylan Zhang, étudiant en doctorat à l'Université de l'Illinois, a constaté que la précision de GPT-5.4 sur le benchmark ARC-AGI est tombée de 100 % à 54 % après plusieurs rounds de compression. Le problème provient du fait que les modèles réécrivent les bonnes solutions en règles généralisées, perdant ainsi des détails essentiels. Des résultats similaires ont été observés dans la tâche WebShop, où plus de trajectoires d'experts ont conduit à de pires performances. Ces conclusions suggèrent de conserver les données d'opération brutes et de limiter les résumés abstraits. Les traders qui suivent des altcoins à surveiller pourraient trouver les données on-chain de plus en plus utiles pour évaluer les outils pilotés par l'IA.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.