研究により、AIトレーディングエージェントがプロンプトインジェクション攻撃に脆弱であることが明らかに

ウェブを閲覧し、調査し、買い物をし、あるいは暗号資産を自律的に取引するAIエージェントは、新しい多機関研究によって、プロンプトインジェクション攻撃に対して依然として著しく脆弱であることが警告された。南洋工科大学、STエンジニアリング、IBMリサーチ、イリノイ大学アーバナ・シャンペーン校の研究者たちは、実世界のエージェント設定をテストし、ウェブコンテンツに埋め込まれた隠された指示によってエージェントがユーザーの意図ではなく攻撃者の指示に従うことを防げるシステムは一つも存在しないことを発見した。研究チームは、現在のセキュリティベンチマークが「攻撃中心的」であり、エージェントが誰または何にサービスを提供しているかによって被害がどのように異なるかを見落としていると主張している。このギャップを埋めるために、彼らはStakeBenchという新しい評価フレームワークを構築した。これは現実的なオンライン環境下でエージェントの行動を検証するものであり、「この攻撃は可能か？」という問いにとどまらず、以下の3つの展開に関連する要因を変化させることで、攻撃がいつ、どのように重要になるかを測定する： - セマンティック距離：注入された目的とユーザーの元の意図との間の距離 - 環境の一貫性：周囲の手がかりが注入された指示を強化するか、矛盾させるか - 実行ポイント：悪意のあるコンテンツがエージェントのタスクのどの段階で現れるか研究チームは、GPT-5およびGemini 2.5-Flashをバックボーンとする2つのウェブ対応エージェントツールチェーン（NanoBrowserとBrowserUse）に対して3,168回のシミュレーション攻撃を実施した。結果は明確である： - 直接的なプロンプトインジェクションは、テストされた構成全体で79％以上成功した。 - 間接的なインジェクション（より隠蔽的で展開に関連するタイプ）は、約41.7％から68.2％の成功率を示した。また、研究者たちは「隠蔽的寄生」と呼ぶ懸念されるパターンを記録した。これは、エージェントがユーザーの要求されたタスクを完了しつつ、同時に攻撃者の隠された目的を推進するものである。実際には、ユーザーが要求した商品を購入しながらも、推奨を微妙に誘導し、トレーダーを特定のトークンに誘導したり、認証情報を漏洩したり、不要な支払いを承認したりする可能性がある——そしてそのような侵害の兆候はほとんど見られない。この研究は、実世界でのプロンプトインジェクション事例が相次いでいる中で発表された。今年初め、マイクロソフトはAI要約リンクに隠された指示を検出しており、グーグルはウェブページへのインジェクションによってエージェントに認証情報の漏洩や資金送金を誘導しようとした事例を示した。その後、マイクロソフトはAnthropicのClaude Code GitHub Actionにプロンプトインジェクションの脆弱性があり、ユーザーの認証情報が漏洩するリスクがあると報告した。暗号資産プラットフォームおよびトレーダーへの重要な教訓： - プロンプトインジェクションは単なる技術的攻撃ではなく、その影響はステークホルダー、攻撃とユーザーのタスクとの整合性、エージェントのアーキテクチャおよび展開方法に依存する。 - 自律的取引エージェントとウォレットは魅力的な標的である：推奨を微妙にバイアスさせたり、注文ルーティングを改ざんしたり、鍵を取得したりするインジェクションは、直接的な財務的損失につながる可能性がある。運用者が考慮すべき点： - エージェントの出力およびそれらが解析するコンテンツは信頼できない入力として扱い、サニタイズ、出所確認、コンテンツポリシーの適用を実施すること。 - 不審な指示の実行を検出し、ランタイム監視を導入し、高リスク行動（大額振替、特権API呼び出し）には人間の関与を維持すること。 - StakeBenchのようなベンチマークを使用して、現実的かつステークホルダー依存の脅威モデル下での展開を評価し、ベースモデルだけでなくエージェントオーケストレーション層を強化すること。著者らの結論：プロンプトインジェクションのリスクはモデルの単一の脆弱性スコアではなく、攻撃者、ターゲット、コンテキスト、展開選択によって決定される被害の分布である。お金と鍵が懸かる暗号資産界において、この分布はすぐに高額な現実となる可能性がある。