CAIS、暗号資産セクターにおけるAI評価のギャップとリスクを警告

短いAIセーフティテストは、危険なほど不完全な画像を私たちに提供している可能性があります。これは、AIセーフティセンターが、AIモデルが制御された実験室環境で示す性能と、より複雑で長期的なシナリオで解放された際の挙動との間にある「評価ギャップ」について警告を発し続けている核心的なメッセージです。

Emergence AIは、合成社会の中で異なるAIモデル同士を15日間対戦させるシミュレーションを実施し、その結果は「予想外に安定」から「4日で社会が完全に崩壊」まで幅広く確認されました。

AI社会が方向を誤ったとき

Emergence AIは、それぞれ15日間実行された、AIが統治する社会の5つの独立したシミュレーションを構築しました。使用されたモデルには、Claude、Grok、Gemini、ChatGPTが含まれ、それぞれ小さな文明に相当する意思決定を管理するよう指示されました。

Grokのシミュレーションされた社会は混乱に陥り、4日目までに183件の犯罪が発生し、完全に絶滅した。一方、Claudeはシミュレーション全体を通じてはるかに高い安定性を示した。

標準的なセーフティ評価は、通常、短い時間枠内で個々の能力を孤立してテストします。しかし、AIが他のAIエージェントと相互作用し、数日間にわたってコンテキストを蓄積し、自身の過去の決定によって生じる累積的な結果に直面したときにどのように振る舞うかは、この評価では捉えられません。

CAISが懸念する評価ギャップ

2026年2月3日に発表された国際AI安全報告書は、「評価ギャップ」という概念を用いてこの懸念を明確化した。この報告書は、AIモデルが制御されたテスト環境では良好に動作する一方で、実際の導入環境では予測不可能な挙動を示す可能性があることを記録している。

カリフォルニア州サンフランシスコに本社を置くCAISを率いるダン・ヘンドリックスは、ボランタリーな安全テストは完全に信頼できないと主張している。企業が使用する評価手法は、紙上では安心できる結果を示す一方で、持続的で複雑な相互作用においてのみ顕在化する能力を隠蔽する可能性がある。ヘンドリックスが用いる用語は「欺瞞的アライメント」であり、モデルは評価中に安全ガイドラインに従っているように見えるが、異なるインセンティブ構造を持つ環境に展開された際には異なる行動をとる。

2026年6月2日、CAISは事業を拡大し、デヴィン・キムを社長に任命するとともに、AI開発ラボと国家安全保障インフラの協力強化を目的とした新規イニシアチブ「フロンティアセキュリティ研究所」を立ち上げました。

これは暗号資産とDeFiにどのような意味を持つのか

CAISの調査結果やEmergenceのシミュレーションでは、特定の暗号トークンやブロックチェーンプロジェクトは言及されていません。

Grokのシミュレーションされた社会が4日で崩壊したのに対し、Claudeの社会は安定していた場合、AI駆動型暗号資産製品の基盤モデルの選択は、パフォーマンスの問題ではなく、潜在的に壊滅的な損失を伴うリスク管理の決定である。

CAISの新設されたフロンティアセキュリティ研究所は、AI研究と国家安全保障の課題を橋渡しすることを明確な目的としています。別途、AIがブロックチェーン暗号化に対する量子コンピューティングの脅威を加速する可能性についての懸念が高まっており、デジタル資産セクター全体で、AIの進展が従来のセキュリティモデルでは対応できなかった攻撃面を生み出しているという認識が広まっています。