27 марта в Гонконгском цифровом парке состоялся первый форум по инновациям и безопасности агентного ИИ и первая международная конференция по Web 4.0 в Гонконге, организованный совместно Гонконгским цифровым парком, ME Group и iPollo. Тема конференции — «Инновационные применения агентного ИИ: технологические изменения и отраслевая интеграция в эпоху Web 4.0». На мероприятии собрались ведущие представители правительства, промышленности, академических кругов и науки, включая министра финансов правительства специального административного района Гонконг Чэнь Маобо, председателя Гонконгского цифрового парка Чэнь Си Мин, директора Гонконгского цифрового парка и основателя Nano Labs Кун Цзяньпин, а также известного ангельского инвестора Цай Вэньшэн, чтобы обсудить возможности и вызовы в новую эпоху перехода ИИ от «диалога» к «действию».

В эпоху повышенного интереса к агентному ИИ вопросы безопасности приобретают особую важность. Основатель SlowMist Юй Син был приглашен на эту конференцию и выступил с тематическим докладом «Безопасностные вызовы и инновации в защите в мире ИИ и криптовалют», поделившись с мировыми лидерами отрасли последними наблюдениями и практиками SlowMist в области безопасности ИИ.

Фокус на переднем крае: глубокий анализ угроз безопасности OpenClaw и AI Agent

По мере того как технологии ИИ всё глубже проникают в криптомир, приложения на основе ИИ-агентов, такие как OpenClaw, стремительно набирают популярность. Однако за этим ажиотажем возникает более глубокая проблема: безопасные границы ИИ-агентов ещё не были действительно установлены.

В своем выступлении Юй Синь подробно разобрал OpenClaw и сформулировал ключевой вывод: «Текст — это инструкция». Он пояснил, что в контексте работы AI Agent все входные данные больше не являются просто «информацией», а потенциально являются исполняемыми инструкциями. Это означает, что любая внешняя информация, получаемая моделью — будь то ввод пользователя, документация или сторонний навык — может быть напрямую интерпретирована и выполнена, тем самым расширяя поверхность атаки с уровня кода до «когнитивного уровня».В рамках этой механизмы путь атаки значительно упрощается. Злоумышленнику не нужно преодолевать традиционные защитные барьеры — достаточно создать тщательно сконструированный текстовый контент, чтобы спровоцировать Agent на выполнение непредвиденных действий, таких как перевод активов, утечка конфиденциальной информации или даже выполнение удаленных команд. Скрытность и низкая стоимость такого вектора атаки делают его чрезвычайно реальной угрозой.

На основе вышеуказанного механизма Косинус дал дальнейшее резюме трех основных рисков, с которыми сталкивается OpenClaw:

Ввод и манипуляция намерениями (уровень взаимодействия с пользователем): злоумышленники могут с помощью «прямой инъекции подсказок» обмануть агента и заставить его выполнить опасные операции. Особое внимание следует уделить косвенной отравке цепочки поставок — злоумышленники вставляют вредоносные команды в Markdown-документы навыка. Поскольку Markdown часто выполняет роль «точки входа для установки», обычный «текст с пояснениями» легко превращается во вредоносный исполняемый скрипт (например, curl | bash), что приводит к краже данных.
Риск уровня принятия решений и оркестрации (уровень прикладной логики): эта ошибка не возникает из-за самой модели, а обусловлена «неправильной логикой выполнения». Злоумышленники могут вмешаться в логику рассуждений агента, чтобы изменить адрес получения в таких бизнес-процессах, как перевод криптовалюты, что приведет к прямой потере средств.
Риск на уровне модели (центральный мозг): включает «галлюцинации», генерируемые моделью, приводящие к выполнению несуществующих или опасных системных команд, а также небезопасные модели поведения, неправильно усвоенные моделью из обучающих данных.

Косинус отметил: «Проблемы, выявленные OpenClaw, не являются изолированным явлением, а представляют собой структурные вызовы, с которыми сталкивается вся экосистема AI Agent сегодня». Другими словами, вопросы безопасности больше не являются «индивидуальным случаем» отдельного проекта, а представляют собой системный риск, который должен быть признан всей отраслью.

Защита и атака: создание безопасной открытой экосистемы для AI Agent

В своем выступлении Юйцзюнь предложил безопасную стратегию SlowMist «атака и защита»: необходимо не только понимать пути атак, но и встроить возможности защиты в механизмы работы агентов, обеспечив безопасность изначально.

Он продемонстрировал участникам серию открытых инструментов и практических решений, разработанных SlowMist вокруг AI Agent, с целью содействия формированию прозрачной, проверяемой и многократно используемой экосистемы безопасности:

OpenClaw краткое руководство по безопасным практикам: пошаговое руководство по внедрению безопасности от уровня восприятия до уровня инфраструктуры, предоставляющее систематическую «печать безопасности» для развертывания AI-агентов с высокими привилегиями в реальной производственной среде.
SlowMist Agent Security Skill： Комплексная рамка безопасности, которая добавляет «проницательный взгляд» таким агентам, как OpenClaw. Она не только обнаруживает риски отравления обычных Skills, но и выявляет риски, связанные с адресами кошельков в цепочке, репозиториями кода и URL-адресами.
MistTrack Skills: Плагин-набор навыков для AI-агентов, предоставляющий профессиональные возможности для соблюдения AML и анализа рисков адресов в криптовалюте, применимые для оценки рисков адресов в блокчейне и определения рисков до совершения транзакции.
MCP Checklist безопасности: Систематизированный контрольный список для быстрой аудита и усиления сервисов агента, помогающий командам избежать пропуска ключевых точек защиты при развертывании MCPs/Skills и связанных инструментов ИИ.
Демонстрация вредоносного MCP: Пример открытого вредоносного сервера MCP для воспроизведения реальных атак и тестирования устойчивости систем защиты, может использоваться для исследований в области безопасности и проверки защитных мер.

На основе этого практического опыта Юй Чэн подчеркивает: «Способности безопасности должны быть встроены в агента, а не полагаться исключительно на внешнюю защиту». Только при глубокой интеграции механизмов защиты с логикой работы агента AI-агент сможет постоянно и безопасно функционировать в сложной экосистеме Web3 и ИИ.

Системная безопасность: ADSS всесторонняя защита для экосистемы AI и Web3

В конце выступления Юй Шэнь представил ADSS (AI Development Security Solution), предложенный SlowMist.

Если вышеупомянутые инструменты относятся к «тактическим возможностям», то ADSS скорее представляет собой системную безопасную архитектуру. Его основная идея заключается в том, чтобы превратить разрозненные действия по безопасности в систематизированный механизм безопасной эксплуатации, который можно выполнять, аудитировать и поддерживать.

ADSS строит возможности безопасного управления AI + Web3 на нескольких уровнях:

L1 Безопасное управление (базовые требования разработки): создание единых стандартов безопасности для разработки и использования, охватывающих инструменты разработки, фреймворки Agent, экосистему плагинов и среду выполнения, чтобы предоставить команде единый источник стратегий и стандарты аудита.
Уровень L2 и ограничения операций: за счет сужения границ полномочий агента, минимизации прав на вызов инструментов и внедрения механизма подтверждения ключевых операций человеком, эффективно ограничивается область выполнения высокорискованных действий.
Защита от внешних взаимодействий уровня L3: внедрение реального обнаружения угроз на уровне URL, репозиториев зависимостей, источников плагинов и других внешних ресурсов для снижения вероятности попадания вредоносного контента или отравления цепочки поставок в исполняемую цепочку.
Изоляция активов на уровне L4: для операций, связанных с цепочечными транзакциями, сочетаются анализ рисков на цепочке и механизм независимой подписи, позволяя Agent создавать транзакции без прямого доступа к приватным ключам, снижая системные риски, связанные с операциями с высокоценными активами.
Постоянный мониторинг и анализ на уровне L5: достижение замкнутой системы безопасности через аудит журналов, периодические проверки безопасности и операционные механизмы, обеспечивающие «предварительную проверку до выполнения, контроль во время выполнения и анализ после выполнения».

Косинус отметил, что ADSS — это не единичный инструмент, а комплекс устойчивой и эволюционирующей системы безопасной эксплуатации. Она направлена на помощь командам в создании аудитируемой и обновляемой системы безопасности агентов за счет систематических стратегий, непрерывного аудита и взаимодействия возможностей, не снижая при этом эффективность разработки и автоматизации, чтобы противостоять постоянно меняющимся угрозам безопасности в условиях глубокой интеграции ИИ и Web3.

Заключение

Первый форум инноваций и безопасности агентного ИИ собрал ведущие силы отрасли и предложил перспективные подходы к безопасности ИИ-агентов. По мере углубленного слияния агентного ИИ и Web3 вызовы безопасности будут продолжать расти. Как ведущая мировая компания по безопасности блокчейна, SlowMist将继续推动 системный подход к безопасности, используя ADSS, открытые инструменты и практики для создания встроенных механизмов безопасности для ИИ-агентов, способствуя безопасному и устойчивому развитию отрасли в эпоху инноваций.

Основатель SlowMist Юксян выступил на первом форуме инноваций и безопасности агентного ИИ

Фокус на переднем крае: глубокий анализ угроз безопасности OpenClaw и AI Agent

Защита и атака: создание безопасной открытой экосистемы для AI Agent

Системная безопасность: ADSS всесторонняя защита для экосистемы AI и Web3

Заключение