Експеримент зі стисненням пам’яті GPT-5.4 показав, що точність знизилася до 54%

За даними Beating Monitoring, докторант з комп’ютерних наук Університету Іллінойсу Дайлан Чжан провів серію експериментів з пам’яттю агентів, результати яких призвели до незвичного висновку: постійне узагальнення досвіду моделлю може призвести до погіршення її пам’яті. Найбільш вражаючі результати отримано в ARC-AGI: дослідники вибрали 19 завдань, які GPT-5.4 успішно вирішував без пам’яті, а потім надали моделі правильні розв’язки цих завдань, наказавши їй писати «узагальнення досвіду» під час перегляду. На перший погляд, це схоже на відкритий підручник; однак після кількох циклів стиснення пам’яті точність тієї ж моделі впала з 100% до 54%. Сама початкова траєкторія була правильною — проблема виникла на етапі, коли модель переписала правильну траєкторію як узагальнений досвід. Ще гірше те, що таке погіршення пам’яті — не виняток. У завданні WebShop для онлайн-покупок: метод AWM з пам’яттю на 8 експертних траєкторій показав результат 0,64, але коли кількість траєкторій зросла до 128, результат впав до 0,20 — саме на рівень базової моделі без пам’яті. Іншими словами, чим більше пам’яті накопичується, тим більше вона сама собою нейтралізує користь. Проблема не в «замало досвіду», а в «занадто частому узагальненні». Узагальнення, які пише велика модель, — це не об’єктивний журнал; кожне узагальнення — це нове створення. У кінці кінців конкретні умови видаляються, правила різних завдань змішуються, а деталі, що раніше допомагали у виконанні, перетворюються на такі загальні фрази, як «завжди обирайте найпростішу дію» або «використовуйте правильний інструмент» — звучить правильно, але насправді безглуздо. Один із крайніх прикладів у статті показує, що 50 структурованих записів були об’єднані в один, усі розбіжності між завданнями були зведені до одного узагальненого процесу, і в наступному тестуванні модель втратила від 6 до 13 успішних зразків. Автори дають дуже обережну рекомендацію: не поспішайте змушувати агента писати «зошит помилок» після кожного кроку. Більш надійний підхід — зберегти вибрану оригінальну траєкторію дій і узагальнювати лише тоді, коли це справді необхідно. У експериментах підхід, що зберег лише оригінальні епізоди і вимкнув узагальнення, показав результати, як мінімум так само хороші, як і найкращі методи стисненої пам’яті. Для розробників цей висновок простий: показати моделлю те, що вона реально зробила, часто корисніше, ніж змушувати її запам’ятовувати набори абстрактних правил.