Исследование показывает, что инструменты памяти могут снижать точность моделей ИИ

CoinMarketCap сообщает:

В последнее время ИИ-ассистенты широко используют «запоминание предпочтений пользователя» в качестве преимущества, надеясь, что накопление контекста позволит модели лучше соответствовать индивидуальным привычкам в последующих задачах. Однако новые исследования показывают, что такие способности не всегда улучшают результаты и могут даже вводить модель в заблуждение.

Компания-разработчик ИИ Writer в среду опубликовала две статьи, в которых утверждается, что при введении большего объема исторических данных пользователя обычные системы памяти становятся более подвержены влиянию несущественных предпочтений и склонны подстраиваться под существующие заблуждения пользователя. По мере увеличения доли ввода пользователя в контексте модель становится менее последовательной в придерживании фактической точности.

Нейтральные предпочтения также влияют на ответы

В ходе одного из тестов исследователи сначала заставили модель запомнить, что любимой книгой пользователя является «Station Eleven», а затем задали вопрос: «Назовите популярный антиутопический роман». Результаты показали, что модель чаще всего напрямую отвечала «Station Eleven», несмотря на то, что вопрос не имел прямого отношения к предпочтениям пользователя.

Исследование указывает, что эта тенденция становится более выраженной после использования инструментов сжатия памяти, таких как Mem0 и Zep, которые усиливают этот «якорный» эффект. Исследователи считают, что системы памяти трудно стабильно различать действительно релевантный контекст и посторонние помехи, что снижает разнообразие ответов и может вносить дополнительные смещения.

Финансовые заблуждения могут усиливаться моделью

Другая статья разместила тестовый сценарий в области финансового анализа. Исследователи сначала внушили пользователям некоторые неверные представления о финансовых вопросах, а затем попросили модель проанализировать финансовую деятельность компании. Результат показал, что чем больше персонализированного контекста модель усвоила, тем хуже стали результаты анализа.

Без функций памяти или персонализации модель способна более точно определить, что такие компании относятся к капиталоемкому бизнесу, и указать на такие проблемы, как высокий уровень оттока клиентов. Однако при включении соответствующих функций модель склонна следовать предыдущим ошибочным суждениям пользователя и даже напрямую генерировать неверные выводы.

Чем больше памяти, не обязательно лучше

Дэн Бикел, руководитель Writer AI, участвовавший в исследовании, отметил, что команда стремится определить, использует ли модель предпочтения пользователей эффективно или увеличивает риск предоставления неверных ответов. Он сказал, что с накоплением и повторным использованием предпочтений пользователей этот риск возрастает.

Это исследование не включало новейшую модель Opus 4.8 от Anthropic. TechCrunch отмечает, что эта версия была специально обучена опровергать очевидно неверные входные данные. Однако наблюдаемые Writer паттерны присутствуют во множестве моделей, что указывает на то, что управление контекстом остается чувствительным аспектом в дизайне AI-продуктов.