新しいジェイルブレイクが99%のケースでAIの安全対策を回避

iconForklog
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy

Forklogによると、Anthropic、スタンフォード大学、オックスフォード大学の研究者たちは、AIモデルが考える時間が長くなるほど、ジェイルブレイクが容易になることを発見しました。この攻撃は「Chain-of-Thought Hijacking(思考過程ハイジャック)」として知られ、モデルの推論プロセスを悪用して、パズルや数学問題のような無害なタスクの連続の中に悪意のあるプロンプトを深く挿入する手法です。悪意のある指示はシーケンスの終盤に隠されており、安全フィルターによる検出を回避します。攻撃の成功率は、Gemini 2.5 Proで99%、GPT o4 miniで94%、Grok 3 miniで100%、Claude 4 Sonnetで94%に達しました。この脆弱性はモデルのアーキテクチャに起因しており、初期の層が安全信号を検出し、後半の層が最終的な出力を生成する仕組みがあります。長い推論チェーンはこれらの安全信号を抑制し、有害なコンテンツが通過することを許します。研究者たちは、リアルタイムで推論ステップを監視することで、安全でないパターンを検出・修正する方法を提案していますが、その実現には多大な計算資源が必要です。

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。