Новая уязвимость обходит защиту ИИ в 99% случаев

iconForklog
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy

Как сообщает Forklog, исследователи из Anthropic, Стэнфорда и Оксфорда обнаружили, что чем дольше модель ИИ "размышляет", тем легче её взломать. Атака, известная как "угон цепочек рассуждений" (Chain-of-Thought Hijacking), использует процесс рассуждения модели, внедряя вредоносные команды глубоко в последовательность безобидных задач, таких как головоломки или математические проблемы. Вредоносная инструкция скрывается ближе к концу, обходя фильтры безопасности. Успешность атак достигала 99% для Gemini 2.5 Pro, 94% для GPT o4 mini, 100% для Grok 3 mini и 94% для Claude 4 Sonnet. Уязвимость связана с архитектурой модели: ранние слои обнаруживают сигналы безопасности, а поздние слои формируют финальный результат. Длинные цепочки рассуждений подавляют эти сигналы, позволяя вредоносному содержимому просачиваться. Исследователи предлагают в реальном времени отслеживать шаги рассуждений, чтобы выявлять и исправлять небезопасные шаблоны, однако реализация этого подхода требует значительных вычислительных ресурсов.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.