Как сообщает Forklog, исследователи из Anthropic, Стэнфорда и Оксфорда обнаружили, что чем дольше модель ИИ "размышляет", тем легче её взломать. Атака, известная как "угон цепочек рассуждений" (Chain-of-Thought Hijacking), использует процесс рассуждения модели, внедряя вредоносные команды глубоко в последовательность безобидных задач, таких как головоломки или математические проблемы. Вредоносная инструкция скрывается ближе к концу, обходя фильтры безопасности. Успешность атак достигала 99% для Gemini 2.5 Pro, 94% для GPT o4 mini, 100% для Grok 3 mini и 94% для Claude 4 Sonnet. Уязвимость связана с архитектурой модели: ранние слои обнаруживают сигналы безопасности, а поздние слои формируют финальный результат. Длинные цепочки рассуждений подавляют эти сигналы, позволяя вредоносному содержимому просачиваться. Исследователи предлагают в реальном времени отслеживать шаги рассуждений, чтобы выявлять и исправлять небезопасные шаблоны, однако реализация этого подхода требует значительных вычислительных ресурсов.
Новая уязвимость обходит защиту ИИ в 99% случаев
ForklogПоделиться






Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.