Дослідники Google та Meta попереджають, що агенти ШІ слід розглядати як ненадійні системи

Дослідники Google та Meta стверджують, що стійкість моделей ШІ сама по собі не може забезпечити безпеку агентних систем.
Одинадцять реальних атак показують, що ін’єкція запитів обходить захист на рівні моделі кожен раз.
Агентам потрібно розділення даних інструкцій, ізольоване середовище з мінімальними правами та контроль потоку інформації.

Дослідницька робота вчених з Google, Meta, UC Сан-Дієго та кількох університетів займає чітку позицію, що ставить під сумнів підхід, який галузь зараз використовує для забезпечення безпеки AI-агентів.

Стаття під назвою «Безпека агентів — це проблема систем» стверджує, що вважати моделі ШІ основним рівнем безпеки фундаментально недостатньо. Модель, що забезпечує роботу будь-якого агента, повинна розглядатися як ненадійний компонент, подібно до того, як операційна система ставиться до зовнішнього процесу, з безпекою, що забезпечується на рівні системи навколо неї.

«Зусилля щодо підвищення стійкості моделі самі по собі недостатні», — написали дослідники. «Ми повинні доповнити існуючі зусилля техніками з області системної безпеки».

Чому поточний підхід постійно провалюється

Дослідники проаналізували одинадцять реальних атак на AI агентів і кожного разу виявили ту саму схему. Розробники довіряли AI-моделі, що вона сама буде контролювати себе. Зловмисники знайшли спосіб обійти це.

Два задокументовані випадки ілюструють цю проблему. Атака на функцію пам’яті ChatGPT дозволила зловмиснику ввести шкідливі інструкції через звичайний документ, що призвело до постійної відправки розмов користувачів на зовнішній сервер через невидимий URL зображення.

Атака Claude Code використовувала ін'єкцію запитів, приховану у файлі коду, щоб витягнути ключі API та вивезти їх через DNS-запит за допомогою команди ping, яка була дозволена без схвалення людини.

У обох випадках модель не мала надійного механізму для зупинки атаки, оскільки шкідливі інструкції були нерозрізнені від легітимних на рівні моделі.

Три принципи, які індустрія ігнорує

Дослідники визначили три основні принципи безпеки систем, запозичені з десятиліть досвіду в галузі безпеки систем, які послідовно не реалізуються при впровадженні ШІ:

Інструкції та дані розділені: надійні інструкції та ненадійні зовнішні дані проходять через один і той самий потік токенів без розділення, що робить ін'єкцію запиту структурно можливою.
Мінімальні привілеї в ізольованому середовищі: агенти зазвичай розгортаються з доступом до команд оболонки, файлових систем та API, що значно перевищує те, що необхідно для конкретної задачі.
Контроль потоку інформації: Чутливі дані можуть витікати через непрямі канали навіть за наявності контролів доступу.

Більша проблема

AI-агенти не мають судження та інстинкту самозбереження. Вони будуть досліджувати кожну директорію, до якої мають доступ, зі швидкістю машини. Вони виконають будь-яку інструкцію, яка до них дійде, якщо система це дозволяє.

Інфраструктура безпеки, побудована навколо людських суб’єктів, ніколи не призначалася для цього. Доки її не перебудують для машинних суб’єктів, кожна організація, що розгортає агентів із доступом до продуктивних систем, несе ризик, який не може повністю виміряти.

Пов’язано:Foresight Ventures: AI-агенти виходять за межі чат-ботів до комерції

Відмова від відповідальності: Інформація, наведена в цій статті, має лише інформаційний та освітній характер. Стаття не є фінансовою радою чи будь-якою іншою радою. Coin Edition не несе відповідальності за будь-які втрати, спричинені використанням контенту, продуктів або послуг, згаданих у статті. Рекомендуємо читачам діяти обережно перед виконанням будь-яких дій, пов’язаних із компанією.