Anthropic、セーフガード導入前のOpus 4.8ブラウザエージェントのハイジャック率を31.5%と発表

アンソロピックの最新のAIブラウザエージェントを乗っ取ろうとする試みの約3分の1が、セーフガードが機能する前に成功した。これはレッドチームのSlackチャンネルからの噂ではない。これはアンソロピックが自らのシステムカードに記載した数値である。

同社は5月28日にClaude Opus 4.8のシステムカードを公開し、244ページにわたり4つのエージェント領域をカバーしています。ブラウザエージェントの事前防護回避率は31.5%でした。つまり、悪意のある攻撃者がモデルがウェブを閲覧中にプロンプトインジェクション攻撃を仕掛けた場合、防御層が有効でない前提で、攻撃は約3分の1の確率で成功したということです。

フロンティアラボ間の透明性のギャップ

ここがポイントです。その31.5％という数値は単独で見ると悪く見えますが、Anthropicは今年春、セキュリティ専門家に実際に具体的な数値を提供した唯一のフロンティアラボです。

OpenAIは、コネクターという1つの側面のみをカバーするプロンプトインジェクションの開示を発表した。Googleは、その主題をモデルカードから取り除き、より広範なセーフティフレームワーク文書に移動させ、具体的な内容を薄めてしまった。Metaは、閉じられたモデルカードを一切提供しなかった。

セーフガードが実際にどのような機能を果たすか

31.5％という数値は、セーフガード前の測定値であり、重要な文脈です。これは、Anthropicの階層的防御が機能する前のモデルの素の脆弱性の範囲を表しています。

関連モデルであるOpus 4.5におけるセーフガード後のテストでは、攻撃成功率为約1%に低下しました。これは、保護されていない基準値と比較して約97%の削減です。

エージェント機能を持つAIシステムにとって、プロンプトインジェクションは引き続き主要なセキュリティ課題である。モデルがウェブサイトを閲覧したり、フォームを入力したり、ユーザーに代わって複数ステップのタスクを実行できる場合、成功したインジェクションはそのすべてのエージェンシーを攻撃者の目的に向けてしまう可能性がある。

Anthropicの以前のシステムカード、Opus 4.7レポートを含むものも、定量的なインジェクション耐性指標を掲載していました。同社はこれらの数値を一貫して公開するという実績を築いており、単一のスナップショットではなく、時系列としてのトレンドラインとしてデータの価値が高まっています。

これが暗号通貨とAI統合プラットフォームにとって重要な理由

暗号資産業界はAIエージェントの統合に没頭しています。自律型ボット取引、AI駆動のポートフォリオマネージャー、オンチェーンデータアナライザー、自然言語による指示に基づいて取引を実行するDeFiエージェントなどが、数十のプロトコルで既に稼働中または開発中です。

31.5％の事前保護回避率は、これらの製品を構築するすべてのチームに立ち止まらせるべきです。あなたのAIエージェントが外部データソースを閲覧し、潜在的に敵対的なスマートコントラクトからオンチェーンコンテンツを解析し、フォーラムやソーシャルプラットフォーム上のユーザー生成コンテンツを読み取る場合、プロンプトインジェクションは理論的なリスクではなく、計測されたリスクです。

サフェガード改善が約1％に達したことは前向きですが、注意点があります。この数値はAnthropic自身のテスト環境からのものであり、エージェントが雑多で制御されていないウェブコンテンツと相互作用し、攻撃者が数百万ドル規模の経済的インセンティブを持つ実環境では、レッドチーム演習とは異なる形でこれらの防御が試されることになります。

AI関連の暗号資産プロジェクトを評価する投資家にとって、研究室間の透明性の差自体がシグナルとなる。Claudeモデルに基づいて構築されたプロトコルは、公開されたセキュリティデータを示し、緩和戦略を説明できる。一方、類似のデータを公開していない研究室のモデルに依存するプロジェクトは、ユーザーにブラックボックスを信頼するよう求めている。