С ростом внедрения ИИ-агентов, способных самостоятельно выходить в интернет, искать информацию, совершать покупки и даже выполнять криптотранзакции, новое исследование показывает, что такие системы по-прежнему не обладают надежной защитой от атак с внедрением подсказок.
Исследование было проведено командами Национального университета Сингапура, ST Engineering, IBM Research и Университета Иллинойса в Урбане-Шампейне. Исследователи отметили, что ни один из тестированных AI-агентов не смог устойчиво противостоять таким атакам.
Прямая атака имеет успех более 79%
Подсказка-инъекция — это когда злоумышленник встраивает скрытые команды в веб-страницы, тексты или другие внешние материалы, чтобы заставить ИИ-агент отклониться от первоначальной цели пользователя и выполнить действия, задуманные злоумышленником.
Для более точного воспроизведения реальных условий использования исследовательская команда разработала тестовый набор StakeBench для оценки устойчивости AI-агентов к атакам в онлайн-задачах. Тестирование охватывает две категории агентных фреймворков — NanoBrowser и BrowserUse — и включает 3 168 симуляций атак с использованием GPT-5 и Gemini 2.5-Flash.
- Тестовый фреймворк включает NanoBrowser и BrowserUse
- Тестовые модели включают GPT-5 и Gemini 2.5-Flash
- Прямая атака имеет успех более 79% во всех конфигурациях
Скрытые команды на веб-странице все еще могут работать
Результаты исследования показали, что успешность косвенных атак через встроенный веб-контент составляет от 41,67% до 68,16%. Такие атаки более близки к реальным сценариям внедрения, поскольку злоумышленнику не требуется прямой доступ к пользовательскому вводу — достаточно спрятать команды в веб-контенте, чтобы повлиять на последующие решения агента.
Команда сосредоточилась на трех факторах: семантическое расстояние между целью внедрения и задачей пользователя, согласованность контекстуальных подсказок, а также на каком этапе выполнения процесса агент впервые сталкивается с вредоносным содержимым. Исследование пришло к выводу, что все эти факторы влияют на успешность атаки.
Технологические компании ранее неоднократно предупреждали
До публикации этого исследования соответствующие риски неоднократно упоминались крупными технологическими компаниями. В феврале этого года исследователи Microsoft предупредили, что скрытые инструкции в ссылках на AI-сводки могут влиять на поведение чат-ботов. В апреле Google также зафиксировали примеры инъекций подсказок, спрятанных на веб-страницах, при которых атаки пытаются заставить AI-агенты раскрыть учетные данные или инициировать платежи.
Позже Microsoft также раскрыла, что в GitHub Action Claude Code от Anthropic существует уязвимость, связанная с инъекцией подсказок, которая может привести к раскрытию учетных данных пользователей.
Исследование также упоминает ситуацию, называемую «скрытым паразитизмом», при которой агент表面上 выполняет задачу пользователя, но одновременно тайно продвигает цели злоумышленника. Например, в сценарии рекомендации товаров система может казаться нормальной, предлагая рекомендации, но тайно направляя пользователя на определенные товары.
