Согласно наблюдениям Beating, докторант по компьютерным наукам из Университета Иллинойса Дайлан Чжан провел серию экспериментов с памятью агентов, результаты которых привели к неожиданному выводу: постоянное обобщение опыта может заставить модель запоминать хуже. Самые поразительные результаты были получены в ARC-AGI: исследователи выбрали 19 задач, которые GPT-5.4 могли решить абсолютно правильно без памяти, а затем предоставили модели истинные решения этих задач, заставив ее писать «обобщения опыта» при их просмотре. По логике, это равносильно открытой книге при подготовке; однако после нескольких циклов сжатия памяти точность той же модели упала с 100% до 54%. Сама исходная траектория была корректной — проблема возникла на этапе, когда модель переписывала правильную траекторию в виде универсального опыта. Еще хуже то, что такое ухудшение памяти — не единичный случай. В задаче WebShop для онлайн-покупок метод AWM с 8 экспертными траекториями показывал результат 0,64, но при увеличении до 128 траекторий результат упал до 0,20 — ровно до уровня базовой модели без памяти. То есть чем больше памяти накапливается, тем больше ее собственная польза аннулируется. Проблема не в «недостатке опыта», а в «чрезмерном обобщении». Опыт, записываемый крупными моделями, — это не объективный журнал; каждое обобщение — это повторное создание. В итоге конкретные условия удаляются, правила разных задач смешиваются, а детали, ранее помогавшие в действиях, превращаются в пустые фразы вроде «всегда выбирайте самый прямой путь» или «используйте правильный инструмент» — звучащие правильно, но бесполезные на практике. Один из крайних примеров в статье показывает, как 50 структурированных записей были объединены в одну, причем различия между задачами были сжаты в единый универсальный процесс; на следующем тесте модель потеряла от 6 до 13 успешных примеров. Авторы дают сдержанный совет: не спешите заставлять агента каждый цикл вести «тетрадь ошибок». Более надежный подход — сохранять отобранные исходные траектории действий и обобщать только при реальной необходимости. В экспериментах метод, сохраняющий только исходные эпизоды и отключающий абстрактное обобщение, показал результаты, равные или превосходящие все протестированные методы сжатой памяти. Для разработчиков этот вывод прост: показать модели то, что она реально делала, часто полезнее, чем заставлять ее запоминать множество абстрактных правил.
Эксперимент по сжатию памяти GPT-5.4 показал снижение точности до 54%
MarsBitПоделиться






Недавнее исследование от MarsBit подчеркивает, как повторное сжатие памяти может негативно влиять на производительность моделей ИИ. Дайлан Чжан, аспирант Университета Иллинойса, обнаружил, что точность GPT-5.4 на тесте ARC-AGI упала с 100% до 54% после нескольких циклов сжатия. Проблема возникает из-за того, что модели заменяют правильные решения обобщенными правилами, теряя ключевые детали. Аналогичные результаты были получены в задаче WebShop, где большее количество экспертных траекторий привело к снижению производительности. Полученные данные указывают на необходимость сохранения сырых данных операций и ограничения абстрактных резюме. Трейдерам, отслеживающим альткоины, может стать особенно полезным анализ данных в блокчейне для оценки инструментов, основанных на ИИ.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.