Исследование показывает, что ИИ-агенты по-прежнему уязвимы к атакам через внедрение запросов

CoinDesk сообщает:

С ростом внедрения ИИ-агентов, способных самостоятельно выходить в интернет, искать информацию, совершать покупки и даже выполнять криптотранзакции, новое исследование показывает, что такие системы по-прежнему не обладают надежной защитой от атак с внедрением подсказок.

Исследование было проведено командами Национального университета Сингапура, ST Engineering, IBM Research и Университета Иллинойса в Урбане-Шампейне. Исследователи отметили, что ни один из тестированных AI-агентов не смог устойчиво противостоять таким атакам.

Прямая атака имеет успех более 79%

Подсказка-инъекция — это когда злоумышленник встраивает скрытые команды в веб-страницы, тексты или другие внешние материалы, чтобы заставить ИИ-агент отклониться от первоначальной цели пользователя и выполнить действия, задуманные злоумышленником.

Для более точного воспроизведения реальных условий использования исследовательская команда разработала тестовый набор StakeBench для оценки устойчивости AI-агентов к атакам в онлайн-задачах. Тестирование охватывает две категории агентных фреймворков — NanoBrowser и BrowserUse — и включает 3 168 симуляций атак с использованием GPT-5 и Gemini 2.5-Flash.

Тестовый фреймворк включает NanoBrowser и BrowserUse
Тестовые модели включают GPT-5 и Gemini 2.5-Flash
Прямая атака имеет успех более 79% во всех конфигурациях

Скрытые команды на веб-странице все еще могут работать

Результаты исследования показали, что успешность косвенных атак через встроенный веб-контент составляет от 41,67% до 68,16%. Такие атаки более близки к реальным сценариям внедрения, поскольку злоумышленнику не требуется прямой доступ к пользовательскому вводу — достаточно спрятать команды в веб-контенте, чтобы повлиять на последующие решения агента.

Команда сосредоточилась на трех факторах: семантическое расстояние между целью внедрения и задачей пользователя, согласованность контекстуальных подсказок, а также на каком этапе выполнения процесса агент впервые сталкивается с вредоносным содержимым. Исследование пришло к выводу, что все эти факторы влияют на успешность атаки.

Технологические компании ранее неоднократно предупреждали

До публикации этого исследования соответствующие риски неоднократно упоминались крупными технологическими компаниями. В феврале этого года исследователи Microsoft предупредили, что скрытые инструкции в ссылках на AI-сводки могут влиять на поведение чат-ботов. В апреле Google также зафиксировали примеры инъекций подсказок, спрятанных на веб-страницах, при которых атаки пытаются заставить AI-агенты раскрыть учетные данные или инициировать платежи.

Позже Microsoft также раскрыла, что в GitHub Action Claude Code от Anthropic существует уязвимость, связанная с инъекцией подсказок, которая может привести к раскрытию учетных данных пользователей.

Исследование также упоминает ситуацию, называемую «скрытым паразитизмом», при которой агент表面上 выполняет задачу пользователя, но одновременно тайно продвигает цели злоумышленника. Например, в сценарии рекомендации товаров система может казаться нормальной, предлагая рекомендации, но тайно направляя пользователя на определенные товары.