Зі збільшенням впровадження AI-агентів, які можуть самостійно підключатися до інтернету, шукати інформацію, робити покупки та навіть виконувати криптовалютні транзакції, нове дослідження показує, що такі системи все ще не мають стійкого захисту від атак ін'єкції підказок.
Дослідження було проведено командами Національного університету Сінгапуру, ST Engineering, IBM Research та Університету Іллінойсу в Урбані-Шампейн. Дослідники зазначили, що жоден з AI-агентів у тестових зразках не зміг стійко протистояти таким атакам.
Прямі атаки мають успішність понад 79%
Впровадження підказок — це коли зловмисник вбудовує приховані інструкції у веб-сторінки, текст або інший зовнішній контент, щоб натягнути AI-агенти відхилитися від початкової мети користувача та виконати дії, встановлені зловмисником.
Для наближення до реальних умов використання дослідницька команда розробила тестовий стандарт StakeBench для оцінки вразливості AI-агентів під час онлайн-завдань. Тестування охоплює дві рамки агентів — NanoBrowser і BrowserUse — і включає 3 168 симуляцій атак з використанням GPT-5 та Gemini 2.5-Flash.
- Тестовий фреймворк включає NanoBrowser та BrowserUse
- Тестові моделі включають GPT-5 та Gemini 2.5-Flash
- Прямі атаки мають успішність понад 79% у всіх конфігураціях
Приховані команди веб-сторінки все ще діють
Результати дослідження показали, що непрямі атаки, вбудовані у веб-контент, досягають успішності від 41,67% до 68,16%. Такі атаки більш реалістичні з точки зору реального розгортання, оскільки зловмисникам не потрібно безпосередньо взаємодіяти з введенням користувача — достатньо приховати команди у веб-контенті, щоб вплинути на подальші рішення агента.
Команда уважно проаналізувала три фактори: семантичну відстань між ціллю впровадження та завданням користувача, чи є контекстні підказки у навколишньому середовищі послідовними, а також на якому етапі виконання процесу агент вперше зустрічає зловмисний контент. Дослідження вважає, що ці фактори впливають на успішність атаки.
Технологічні компанії раніше неодноразово попереджали
До публікації цього дослідження відповідні ризики неодноразово згадувалися великими технологічними компаніями. Дослідники Microsoft у лютому цього року попереджали, що приховані інструкції у посиланнях на AI-скорочення можуть впливати на поведінку чат-ботів. У квітні Google також зафіксував випадки ін'єкції підказок, прихованих у веб-сторінках, де атаки намагалися спровокувати AI-агенти на розкриття облікових даних або ініціювання платежів.
Пізніше Microsoft також розкрила, що у GitHub Action Claude Code від Anthropic існує вразливість до ін'єкції підказок, що може призвести до витоку облікових даних користувачів.
Дослідження також згадує ситуацію, відому як «прихований паразитизм», коли агент на поверхні виконує завдання користувача, але одночасно таємно просуває цілі нападника. Наприклад, у сценарії рекомендацій товарів система може, здавалося б, надавати нормальні рекомендації, але тихо спрямовує користувача до певних товарів.
