Майже кожна третя спроба перехопити найновіший AI-браузерний агент Anthropic вдалася до того, як увімкнулися заходи безпеки. Це не чутка з каналу red-team у Slack. Це цифра, яку Anthropic опублікувала у своєму системному картці.
Компанія опублікувала системну картку Claude Opus 4.8 28 травня, яка охоплює 244 сторінки та охоплює чотири агентні поверхні. Частота перехоплення до захисту для браузерного агента склала 31,5%. Щоб пояснити це простими словами: якщо зловмисник провів атаку ін'єкції запиту на модель під час її перегляду веб-сайтів, атака успішно працювала приблизно третину часу, за умови, що жодні захисні шари не були активні.
Розрив у транспарентності між передовими лабораторіями
Ось у чому справа. Ця цифра 31,5% виглядає погано сама по собі. Але Anthropic — єдина лабораторія передового дослідження, яка цієї весни надала фахівцям з безпеки конкретну цифру для роботи.
OpenAI опублікувала розкриття ін’єкції запитів, яке охоплювало лише один аспект: з’єднавці. Google перемістила всю тему зі своєї картки моделі до загального документа з безпеки, ефективно зменшивши конкретність. Meta взагалі не випустила закриту картку моделі.
Що саме роблять заходи безпеки
Цифра 31,5% — це вимірювання перед захистом, що є важливим контекстом. Вона відображає первинну поверхню вразливості моделі до того, як шарові захисти Anthropic вступлять у дію.
Тестування після захисту на пов’язаній моделі Opus 4.5 показало, що частота успішних атак знизилася приблизно до 1%. Це зменшення приблизно на 97% порівняно з базовим показником без захисту.
Внедрення запитів залишається головною безпековою викликом для систем ШІ з агентними можливостями. Коли модель може переглядати веб-сайти, заповнювати форми або виконувати багатокрокові завдання від імені користувача, успішне внедрення може перенаправити всю цю агентність на досягнення цілей атакувача.
Попередні версії системних карток Anthropic, включаючи звіт про Opus 4.7, також містили кількісні метрики стійкості до ін’єкцій. Компанія постійно формує досвід публікації цих даних, що робить їх більш корисними з часом як тренд, а не як окремий знімок.
Чому це важливо для криптовалютних та інтегрованих з ШІ платформ
Криптоіндустрія глибоко інтегрує AI-агенти. Автономні торгові боти, AI-підсилені менеджери портфелів, аналізатори даних у блокчейні та DeFi-агенти, які виконують транзакції на основі інструкцій природною мовою, вже працюють або розробляються десятками протоколів.
Рівень підміни перед захистом у 31,5% повинен змусити кожну команду, що розробляє ці продукти, зупинитися. Якщо ваш AI-агент переглядає зовнішні джерела даних, аналізує он-чейн вміст з потенційно ворожих смартконтрактів або читає користувацький вміст на форумах та соціальних платформах, ін’єкція запиту — це не теоретичний ризик. Це виміряний ризик.
Покращення після захисту до приблизно 1% є обітницею, але має певні обмеження. Це число походить із власного тестового середовища Anthropic. У реальних умовах впровадження, де агенти взаємодіють зі складним, неконтрольованим веб-контентом, а зловмисники мають фінансові стимули, що оцінюються в мільйони, ці захисти будуть перевірятися інакше, ніж під час червоної команди.
Для інвесторів, які оцінюють криптовалютні проекти, пов’язані з ШІ, різниця в прозорості між лабораторіями сама по собі є сигналом. Протоколи, що побудовані на основі моделей Claude, принаймні можуть посилатися на опубліковані дані безпеки та пояснити свої стратегії зменшення ризиків. Проекти, які використовують моделі від лабораторій, що не опублікували порівнянних даних, просить користувачів довіряти «чорному ящику».
