Эксперимент по сжатию памяти GPT-5.4 показал снижение точности до 54%

icon MarsBit
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Недавнее исследование от MarsBit подчеркивает, как повторное сжатие памяти может негативно влиять на производительность моделей ИИ. Дайлан Чжан, аспирант Университета Иллинойса, обнаружил, что точность GPT-5.4 на тесте ARC-AGI упала с 100% до 54% после нескольких циклов сжатия. Проблема возникает из-за того, что модели заменяют правильные решения обобщенными правилами, теряя ключевые детали. Аналогичные результаты были получены в задаче WebShop, где большее количество экспертных траекторий привело к снижению производительности. Полученные данные указывают на необходимость сохранения сырых данных операций и ограничения абстрактных резюме. Трейдерам, отслеживающим альткоины, может стать особенно полезным анализ данных в блокчейне для оценки инструментов, основанных на ИИ.

Согласно наблюдениям Beating, докторант по компьютерным наукам из Университета Иллинойса Дайлан Чжан провел серию экспериментов с памятью агентов, результаты которых привели к неожиданному выводу: постоянное обобщение опыта может заставить модель запоминать хуже. Самые поразительные результаты были получены в ARC-AGI: исследователи выбрали 19 задач, которые GPT-5.4 могли решить абсолютно правильно без памяти, а затем предоставили модели истинные решения этих задач, заставив ее писать «обобщения опыта» при их просмотре. По логике, это равносильно открытой книге при подготовке; однако после нескольких циклов сжатия памяти точность той же модели упала с 100% до 54%. Сама исходная траектория была корректной — проблема возникла на этапе, когда модель переписывала правильную траекторию в виде универсального опыта. Еще хуже то, что такое ухудшение памяти — не единичный случай. В задаче WebShop для онлайн-покупок метод AWM с 8 экспертными траекториями показывал результат 0,64, но при увеличении до 128 траекторий результат упал до 0,20 — ровно до уровня базовой модели без памяти. То есть чем больше памяти накапливается, тем больше ее собственная польза аннулируется. Проблема не в «недостатке опыта», а в «чрезмерном обобщении». Опыт, записываемый крупными моделями, — это не объективный журнал; каждое обобщение — это повторное создание. В итоге конкретные условия удаляются, правила разных задач смешиваются, а детали, ранее помогавшие в действиях, превращаются в пустые фразы вроде «всегда выбирайте самый прямой путь» или «используйте правильный инструмент» — звучащие правильно, но бесполезные на практике. Один из крайних примеров в статье показывает, как 50 структурированных записей были объединены в одну, причем различия между задачами были сжаты в единый универсальный процесс; на следующем тесте модель потеряла от 6 до 13 успешных примеров. Авторы дают сдержанный совет: не спешите заставлять агента каждый цикл вести «тетрадь ошибок». Более надежный подход — сохранять отобранные исходные траектории действий и обобщать только при реальной необходимости. В экспериментах метод, сохраняющий только исходные эпизоды и отключающий абстрактное обобщение, показал результаты, равные или превосходящие все протестированные методы сжатой памяти. Для разработчиков этот вывод прост: показать модели то, что она реально делала, часто полезнее, чем заставлять ее запоминать множество абстрактных правил.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.