Дослідники Google та Meta попереджають, що агенти ШІ слід розглядати як ненадійні системи

iconCoinEdition
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Новий дослідницький папір від Google, Meta та UC San Diego попереджає, що самі моделі ШІ не можуть забезпечити безпеку агентних систем. У дослідженні детально описано 11 реальних атак з використанням ін'єкції запитів для обходу захисту моделей. Пропонується три принципи безпеки: розділення інструкцій/даних, сандбоксинг з мінімальними привілеями та контроль потоку інформації. Отримані результати мають значення для новин про ШІ та криптовалюти та підкреслюють ризики для новин щодо реальних активів (RWA).
  • Дослідники Google та Meta стверджують, що стійкість моделей ШІ сама по собі не може забезпечити безпеку агентних систем.
  • Одинадцять реальних атак показують, що ін’єкція запитів обходить захист на рівні моделі кожен раз.
  • Агентам потрібно розділення даних інструкцій, ізольоване середовище з мінімальними правами та контроль потоку інформації.

Дослідницька робота вчених з Google, Meta, UC Сан-Дієго та кількох університетів займає чітку позицію, що ставить під сумнів підхід, який галузь зараз використовує для забезпечення безпеки AI-агентів.

Стаття під назвою «Безпека агентів — це проблема систем» стверджує, що вважати моделі ШІ основним рівнем безпеки фундаментально недостатньо. Модель, що забезпечує роботу будь-якого агента, повинна розглядатися як ненадійний компонент, подібно до того, як операційна система ставиться до зовнішнього процесу, з безпекою, що забезпечується на рівні системи навколо неї.

«Зусилля щодо підвищення стійкості моделі самі по собі недостатні», — написали дослідники. «Ми повинні доповнити існуючі зусилля техніками з області системної безпеки».

Чому поточний підхід постійно провалюється

Дослідники проаналізували одинадцять реальних атак на AI агентів і кожного разу виявили ту саму схему. Розробники довіряли AI-моделі, що вона сама буде контролювати себе. Зловмисники знайшли спосіб обійти це.

Два задокументовані випадки ілюструють цю проблему. Атака на функцію пам’яті ChatGPT дозволила зловмиснику ввести шкідливі інструкції через звичайний документ, що призвело до постійної відправки розмов користувачів на зовнішній сервер через невидимий URL зображення.

Атака Claude Code використовувала ін'єкцію запитів, приховану у файлі коду, щоб витягнути ключі API та вивезти їх через DNS-запит за допомогою команди ping, яка була дозволена без схвалення людини.

У обох випадках модель не мала надійного механізму для зупинки атаки, оскільки шкідливі інструкції були нерозрізнені від легітимних на рівні моделі.

Три принципи, які індустрія ігнорує

Дослідники визначили три основні принципи безпеки систем, запозичені з десятиліть досвіду в галузі безпеки систем, які послідовно не реалізуються при впровадженні ШІ:

  • Інструкції та дані розділені: надійні інструкції та ненадійні зовнішні дані проходять через один і той самий потік токенів без розділення, що робить ін'єкцію запиту структурно можливою.
  • Мінімальні привілеї в ізольованому середовищі: агенти зазвичай розгортаються з доступом до команд оболонки, файлових систем та API, що значно перевищує те, що необхідно для конкретної задачі.
  • Контроль потоку інформації: Чутливі дані можуть витікати через непрямі канали навіть за наявності контролів доступу.

Більша проблема

AI-агенти не мають судження та інстинкту самозбереження. Вони будуть досліджувати кожну директорію, до якої мають доступ, зі швидкістю машини. Вони виконають будь-яку інструкцію, яка до них дійде, якщо система це дозволяє.

Інфраструктура безпеки, побудована навколо людських суб’єктів, ніколи не призначалася для цього. Доки її не перебудують для машинних суб’єктів, кожна організація, що розгортає агентів із доступом до продуктивних систем, несе ризик, який не може повністю виміряти.

Пов’язано:Foresight Ventures: AI-агенти виходять за межі чат-ботів до комерції

Відмова від відповідальності: Інформація, наведена в цій статті, має лише інформаційний та освітній характер. Стаття не є фінансовою радою чи будь-якою іншою радою. Coin Edition не несе відповідальності за будь-які втрати, спричинені використанням контенту, продуктів або послуг, згаданих у статті. Рекомендуємо читачам діяти обережно перед виконанням будь-яких дій, пов’язаних із компанією.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.