Исследователи Google и Meta предупреждают, что ИИ-агенты следует рассматривать как ненадежные системы

Исследователи Google и Meta говорят, что только устойчивость ИИ-моделей недостаточна для обеспечения безопасности агентных систем.
Одиннадцать реальных атак показывают, что инъекция запросов обходит защиту на уровне модели каждый раз.
Агентам необходимы разделение инструкционных данных, изолированная среда с минимальными привилегиями и контроль потока информации.

Исследовательская работа ученых из Google, Meta, Калифорнийского университета в Сан-Диего и нескольких других университетов занимает прямую позицию, оспаривающую подходы отрасли к безопасности ИИ-агентов.

Статья, озаглавленная «Безопасность агентов — это проблема систем», утверждает, что рассмотрение моделей ИИ в качестве основного уровня безопасности фундаментально недостаточно. Модель, лежащая в основе любого агента, должна рассматриваться как ненадежный компонент, подобно тому, как операционная система относится к внешнему процессу, при этом безопасность обеспечивается на системном уровне вокруг нее.

«Усилия по повышению устойчивости модели сами по себе недостаточны», — написали исследователи. «Мы должны дополнить существующие усилия методами из области системной безопасности».

Почему текущий подход продолжает проваливаться

Исследователи проанализировали одиннадцать реальных атак на AI агенты и каждый раз обнаруживали одну и ту же закономерность. Разработчики доверяли ИИ-модели контролировать себя сами. Злоумышленники находили способы обойти это.

Два задокументированных случая иллюстрируют проблему. Атака на функцию памяти ChatGPT позволила злоумышленнику ввести вредоносные инструкции через обычный документ, заставив систему постоянно отправлять разговоры пользователей на внешний сервер через невидимый URL изображения.

Атака с использованием Claude Code применяла внедрение запроса, скрытого внутри файла с кодом, для извлечения ключей API и их экстракции через DNS-запрос с использованием команды ping, которая была разрешена без одобрения человека.

В обоих случаях у модели не было надежного механизма для остановки атаки, поскольку вредоносные инструкции не отличались от легитимных на уровне модели.

Три принципа, которые игнорирует отрасль

Исследователи выявили три основных принципа безопасности систем, которые десятилетиями используются в области безопасности, но которые постоянно не реализуются при развертывании ИИ:

Инструкции и данные разделены: доверенные инструкции и недоверенные внешние данные проходят через один и тот же поток токенов без разделения, что делает инъекцию запроса структурно возможной.
Принцип наименьших привилегий в песочнице: агенты обычно развертываются с доступом к командам оболочки, файловым системам и API, значительно превышающему требования конкретной задачи.
Контроль потока информации: Конфиденциальные данные могут утекать через косвенные каналы, даже при наличии контроля доступа.

Большая проблема

У ИИ-агентов нет суждения и инстинкта самосохранения. Они будут исследовать каждую директорию, к которой имеют доступ, со скоростью машины. Они выполнят любую инструкцию, которая до них дойдет, если система это позволяет.

Инфраструктура безопасности, построенная вокруг человеческих субъектов, никогда не была предназначена для этого. Пока она не будет перестроена для машинных субъектов, каждая организация, внедряющая агентов с доступом к производственным системам, несет риск, который не может полностью измерить.

См. также:Foresight Ventures: ИИ-агенты выходят за рамки чат-ботов в сторону коммерции

Отказ от ответственности: Информация, представленная в этой статье, предназначена исключительно для информационных и образовательных целей. Статья не является финансовой консультацией или консультацией любого рода. Coin Edition не несет ответственности за любые убытки, понесенные в результате использования упомянутого контента, продуктов или услуг. Читателям рекомендуется проявлять осторожность перед предпринятием любых действий, связанных с компанией.