グーグルとメタの研究者が、AIエージェントを信頼できないシステムとして扱う必要があると警告

GoogleとMetaの研究者は、AIモデルの堅牢性だけではエージェントシステムを安全に保てないと述べている。
11の現実世界の攻撃により、プロンプトインジェクションは常にモデルレベルの防御を回避している。
エージェントには、指示データの分離、最小権限のサンドボックス化、および情報フロー制御が必要です。

グーグル、メタ、カリフォルニア大学サンディエゴ校、および複数の大学の科学者たちによる研究論文は、業界が現在AIエージェントのセキュリティに取り組んでいる方法に直接異議を唱える立場を取っている。

論文『Agent Security Is a Systems Problem』は、AIモデルを主要なセキュリティ層として扱うことは本質的に不十分であると主張している。エージェントを駆動するモデルは、オペレーティングシステムが外部プロセスを扱うように、信頼できないコンポーネントとして扱われるべきであり、セキュリティはその周囲のシステムレベルで強制されるべきである。

「モデルの堅牢性を高めるための取り組みだけでは不十分である」と研究者は記している。「既存の取り組みに、システムセキュリティ分野からの技術を補完する必要がある。」

現在のアプローチが繰り返し失敗する理由

研究者は、AIエージェントに対する11の実世界の攻撃を分析し、毎回同じパターンを発見しました。開発者はAIモデルが自らを監視すると信じていました。攻撃者はそれを回避する方法を見つけ出しました。

二つの事例がこの問題を示しています。ChatGPTのメモリ機能に対する攻撃により、攻撃者が通常のドキュメントを通じて悪意のある指示を注入し、システムが見えない画像URLを介してユーザーの会話を外部サーバーに継続的に送信するようになりました。

Claude Code攻撃は、コードファイル内に隠されたプロンプトインジェクションを使用してAPIキーを抽出し、人間の承認なしに許可されていたpingコマンドを通じてDNSクエリでそれを外部に送信しました。

どちらの場合も、悪意のある指示がモデルレベルで正当な指示と区別できなかったため、モデルには攻撃を停止する信頼できるメカニズムがありませんでした。

業界が無視している3つの原則

研究者たちは、数十年にわたるシステムセキュリティから導き出された3つの核心的なセキュリティ原則を特定し、AIの導入は一貫してこれらの原則を実装できていないことを明らかにした。

指示とデータの分離：信頼できる指示と信頼できない外部データが分離されずに同じトークンストリームを通過するため、プロンプトインジェクションが構造的に可能になります。
最小権限サンドボックス化：エージェントは、特定のタスクに必要な以上のシェルコマンド、ファイルシステム、APIへのアクセス権で通常デプロイされます。
情報フロー制御：アクセス制御が存在しても、感度データは間接的なチャネルを通じて漏洩する可能性があります。

より大きな問題

AIエージェントには判断力も自己保存の本能もありません。彼らはアクセス可能なすべてのディレクトリをマシン速度で探索します。システムが許可する限り、到達したあらゆる指示を実行します。

人間のアクターを想定して構築されたセキュリティインフラは、これのために設計されていません。マシンアクター向けに再構築されるまで、生産システムへのアクセスを持つエージェントを導入するすべての組織は、完全に測定できないリスクを抱えています。

免責事項：本記事に記載されている情報は、情報提供および教育目的でのみ使用することを目的としています。本記事は金融アドバイスまたはいかなる種類のアドバイスでもありません。Coin Editionは、本記事で言及されたコンテンツ、製品、またはサービスの利用によって生じたいかなる損失についても責任を負いません。読者は、関連企業に関するいかなる行動を取る前に注意を払うことを推奨します。