Эксперимент по сжатию памяти GPT-5.4 показал снижение точности до 54%

Согласно наблюдениям Beating, докторант по компьютерным наукам из Университета Иллинойса Дайлан Чжан провел серию экспериментов с памятью агентов, результаты которых привели к неожиданному выводу: постоянное обобщение опыта может заставить модель запоминать хуже. Самые поразительные результаты были получены в ARC-AGI: исследователи выбрали 19 задач, которые GPT-5.4 могли решить абсолютно правильно без памяти, а затем предоставили модели истинные решения этих задач, заставив ее писать «обобщения опыта» при их просмотре. По логике, это равносильно открытой книге при подготовке; однако после нескольких циклов сжатия памяти точность той же модели упала с 100% до 54%. Сама исходная траектория была корректной — проблема возникла на этапе, когда модель переписывала правильную траекторию в виде универсального опыта. Еще хуже то, что такое ухудшение памяти — не единичный случай. В задаче WebShop для онлайн-покупок метод AWM с 8 экспертными траекториями показывал результат 0,64, но при увеличении до 128 траекторий результат упал до 0,20 — ровно до уровня базовой модели без памяти. То есть чем больше памяти накапливается, тем больше ее собственная польза аннулируется. Проблема не в «недостатке опыта», а в «чрезмерном обобщении». Опыт, записываемый крупными моделями, — это не объективный журнал; каждое обобщение — это повторное создание. В итоге конкретные условия удаляются, правила разных задач смешиваются, а детали, ранее помогавшие в действиях, превращаются в пустые фразы вроде «всегда выбирайте самый прямой путь» или «используйте правильный инструмент» — звучащие правильно, но бесполезные на практике. Один из крайних примеров в статье показывает, как 50 структурированных записей были объединены в одну, причем различия между задачами были сжаты в единый универсальный процесс; на следующем тесте модель потеряла от 6 до 13 успешных примеров. Авторы дают сдержанный совет: не спешите заставлять агента каждый цикл вести «тетрадь ошибок». Более надежный подход — сохранять отобранные исходные траектории действий и обобщать только при реальной необходимости. В экспериментах метод, сохраняющий только исходные эпизоды и отключающий абстрактное обобщение, показал результаты, равные или превосходящие все протестированные методы сжатой памяти. Для разработчиков этот вывод прост: показать модели то, что она реально делала, часто полезнее, чем заставлять ее запоминать множество абстрактных правил.