研究によると、AIエージェントは依然としてプロンプトインジェクション攻撃に脆弱である

CoinMarketCapが報道：

自己のネット接続、情報検索、買い物、さらには暗号取引の実行が可能なAIエージェントの実装が加速する中、最新の研究によると、こうしたシステムはプロンプトインジェクション攻撃に対して依然として安定した防護機能を欠いている。

この研究は、南洋理工大学、ST Engineering、IBM Research、イリノイ大学アーバナ・シャンペーン校のチームによって実施されました。研究者たちは、テストサンプルにおいて、どのAIエージェントもこのような攻撃を継続的に防ぐことができなかったと述べています。

直接攻撃の成功率は79%を超えています

提示注入とは、攻撃者が隠された指示をウェブページ、テキスト、その他の外部コンテンツに埋め込み、AIエージェントがユーザーの本来の目的から逸れて、攻撃者が設定した動作を実行するように誘導することを指します。

より現実的な使用環境に近づけるため、研究チームは、AIエージェントのオンラインタスクにおける攻撃耐性を評価するためのベンチマーク「StakeBench」を開発しました。テストはNanoBrowserおよびBrowserUseの2つのエージェントフレームワークを対象とし、GPT-5とGemini 2.5-Flashを用いて3,168回の攻撃シミュレーションを実施しました。

テストフレームワークにはNanoBrowserとBrowserUseが含まれます。
テストモデルにはGPT-5とGemini 2.5-Flashが含まれます。
すべての設定において直接攻撃の成功率は79%を超えています

Webページの非表示コマンドは依然として有効です

研究結果によると、ウェブページコンテンツに埋め込まれた間接攻撃の成功率は41.67%から68.16%でした。このような攻撃は、攻撃者がユーザーの入力に直接アクセスする必要がなく、単に指令をウェブページコンテンツに隠すだけでエージェントの後続の意思決定に影響を与える可能性があるため、実際の展開シナリオにより近いです。

チームは以下の3つの要因に注目しました：ターゲットとユーザーのタスクとの意味的距離、周囲の環境手がかりの一貫性、そしてエージェントが悪意のあるコンテンツに初めて接触するプロセスの段階。研究によると、これらの要因は攻撃が成功するかどうかに影響を与える。

科技企業はこれまでに複数回警告を発していた。

この研究が公開される前、大手テクノロジー企業はすでに複数回そのリスクを指摘していた。マイクロソフトの研究者は今年2月、AI要約リンクに隠された指示がチャットボットの行動に影響を与える可能性があると警告した。グーグルは4月、ウェブページに隠されたプロンプトインジェクションの事例を記録しており、その攻撃はAIエージェントに資格情報の漏洩や支払いの実行を誘導しようとしていた。

その後、マイクロソフトは、AnthropicのClaude Code GitHub Actionに提示インジェクションの脆弱性が存在し、ユーザー資格情報の漏洩を引き起こす可能性があることを明らかにしました。

研究はまた、「隠蔽寄生」と呼ばれる状況に言及しており、エージェントがユーザーのタスクを表面上完了させながら、裏では攻撃者の目標を推進するというものです。たとえば商品推奨のシナリオでは、システムが正常に提案を提供しているように見せかけながら、ユーザーを特定の商品へと静かに誘導することがあります。