Anthropic сообщает о 31,5% уровне перехвата для Opus 4.8 Browser Agent до внедрения мер защиты

Почти каждая третья попытка перехвата нового AI-браузерного агента Anthropic увенчалась успехом до того, как сработали меры защиты. Это не слух из Slack-канала red-team, а цифра, опубликованная самой Anthropic в своем системном документе.

Компания выпустила системную карту Claude Opus 4.8 28 мая, охватывающую 244 страницы и охватывающую четыре агентных поверхности. Коэффициент перехвата до срабатывания защитных мер для браузерного агента составил 31,5%. Проще говоря: если злонамеренный участник направил атаку с внедрением запроса на модель во время её веб-просмотра, атака успешно срабатывала примерно в третьем случае при отсутствии активных защитных слоев.

Разрыв в прозрачности среди передовых лабораторий

Вот в чём дело. Эта цифра в 31,5% выглядит плохо в изоляции. Но Anthropic — единственная передовая лаборатория, которая весной действительно предоставила специалистам по безопасности конкретное число для работы.

OpenAI опубликовала раскрытие информации о внедрении запросов, охватывающее только один аспект: подключаемые модули. Google переместила всю тему из карточки модели в более общий документ о безопасности, что фактически снизило конкретность. Meta вообще не выпустила закрытую карточку модели.

Что на самом деле делают меры безопасности

Цифра 31,5% является предварительной мерой уязвимости, что важно для контекста. Она отражает исходную поверхность уязвимости модели до включения многоуровневой защиты Anthropic.

Пост-тестирование на защищенной модели Opus 4.5 показало, что成功率 атак снизилась до примерно 1%. Это снижение примерно на 97% по сравнению с незащищенной базовой моделью.

При injection остается основной проблемой безопасности для ИИ-систем с агентными возможностями. Когда модель может просматривать веб-сайты, заполнять формы или выполнять многошаговые задачи от имени пользователя, успешный injection может перенаправить весь этот агентный потенциал на достижение целей злоумышленника.

Предыдущие версии системных карт Anthropic, включая отчет об Opus 4.7, также содержали количественные показатели устойчивости к инъекциям. Компания наладила практику последовательной публикации этих данных, что делает информацию более полезной со временем как тренд, а не как единичный снимок.

Почему это важно для криптовалютных и интегрированных с ИИ платформ

Криптовалютная индустрия глубоко погружена в интеграцию AI-агентов. Автономные торговые боты, AI-управляемые менеджеры портфелей, анализаторы данных в цепочке и DeFi-агенты, выполняющие транзакции на основе естественных языковых команд, уже работают или находятся в разработке десятками протоколов.

Показатель перехвата в 31,5% до предсafeguard должен заставить каждую команду, разрабатывающую такие продукты, остановиться. Если ваш AI-агент просматривает внешние источники данных, анализирует контент в блокчейне из потенциально враждебных смарт-контрактов или считывает пользовательский контент на форумах и социальных платформах, инъекция запроса — это не теоретический риск. Это измеримый риск.

Улучшение после защиты до примерно 1% является обнадеживающим, но с оговоркой. Это число получено в собственной тестовой среде Anthropic. Условия реального развертывания, где агенты взаимодействуют с хаотичным, неконтролируемым веб-контентом, а противники имеют финансовые стимулы, измеряемые миллионами, будут по-другому тестировать эти защиты по сравнению с упражнением red-team.

Для инвесторов, оценивающих криптовалютные проекты, связанные с ИИ, разрыв в прозрачности между лабораториями сам по себе является сигналом. Протоколы, построенные на моделях Claude, по крайней мере, могут указать на опубликованные данные о безопасности и объяснить свои стратегии смягчения рисков. Проекты, использующие модели от лабораторий, которые не опубликовали сопоставимые данные, заставляют пользователей доверять «черному ящику».