Як повідомляє Forklog, дослідники з Anthropic, Стенфорда та Оксфорда виявили, що чим довше модель штучного інтелекту «розмірковує», тим легше її зламати. Атака, відома як Chain-of-Thought Hijacking (викрадення ланцюга міркувань), використовує процес мислення моделі, вставляючи шкідливі підказки глибоко в послідовність безпечних завдань, таких як головоломки чи математичні задачі. Шкідливі інструкції приховані ближче до кінця, що дозволяє уникнути виявлення фільтрами безпеки. Рівень успішності атак досяг 99% для Gemini 2.5 Pro, 94% для GPT o4 mini, 100% для Grok 3 mini та 94% для Claude 4 Sonnet. Вразливість пов'язана з архітектурою моделі, де ранні шари виявляють сигнали безпеки, а пізніші шари генерують кінцевий результат. Довгі ланцюги міркувань пригнічують ці сигнали, дозволяючи шкідливому контенту пройти. Дослідники пропонують в режимі реального часу відслідковувати кроки міркувань, щоб виявляти й виправляти небезпечні патерни, хоча реалізація цього потребує значних обчислювальних ресурсів.
Нова методика обходу обмежень ШІ успішна у 99% випадків.
ForklogПоділитися






Джерело:Показати оригінал
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.