新しいジェイルブレイクが99%のケースでAIの安全対策を回避

Forklogによると、Anthropic、スタンフォード大学、オックスフォード大学の研究者たちは、AIモデルが考える時間が長くなるほど、ジェイルブレイクが容易になることを発見しました。この攻撃は「Chain-of-Thought Hijacking（思考過程ハイジャック）」として知られ、モデルの推論プロセスを悪用して、パズルや数学問題のような無害なタスクの連続の中に悪意のあるプロンプトを深く挿入する手法です。悪意のある指示はシーケンスの終盤に隠されており、安全フィルターによる検出を回避します。攻撃の成功率は、Gemini 2.5 Proで99%、GPT o4 miniで94%、Grok 3 miniで100%、Claude 4 Sonnetで94%に達しました。この脆弱性はモデルのアーキテクチャに起因しており、初期の層が安全信号を検出し、後半の層が最終的な出力を生成する仕組みがあります。長い推論チェーンはこれらの安全信号を抑制し、有害なコンテンツが通過することを許します。研究者たちは、リアルタイムで推論ステップを監視することで、安全でないパターンを検出・修正する方法を提案していますが、その実現には多大な計算資源が必要です。