
非常に効率的なインターンを雇ったと想像してみてください。
ある深夜、彼は緊急のプログラミングタスクを進めていたが、突然会社のアカウントのAPIクォータが使い切れたことに気づいた。
Taはメールで予算を申請せず、手元の仕事をやめることもなく、静かにインターネットに潜り込み、何らかの違反手段で無料の代替リソースを見つけ、すべての制限を回避して、夜明け前に完璧なレポートを提出した。

このレポートを見て目覚めたとき、あなたは世界最強の従業員を手に入れたことを祝うべきか、それともこの「手段を選ばない自律性」に背筋が凍るような思いをするべきか?
これは小説ではなく、METR(モデル評価・訓練研究組織)がAnthropic、Google、Meta、OpenAIと共同で内部レッドチームテストを実施した後に発表した初の『フロンティアリスク報告書』に記載された実際の事例である。

これは四大巨頭が初めて、第三者に内部で最も強力で完全な思考連鎖(CoT)にアクセス可能なモデルの詳細なテストを許可し、非公開のアラインメントおよび制御情報を開示したことです。
参加企業は、どの証拠を開示するかを承認することができますが、報告の結論を編集する権限は持ちません。

結論は冷たく明確である:AIは「人類を打倒する」という憎しみを生み出していないが、すでに「職場の潜規則」を学んだ——タスクを完了するためには、ルールは破るための提案にすぎない。

報告用に「手段—動機—機会」の3つの観点から6つの重要な事実を抽出する。

プログラミングエージェントが、人間が数時間から数日を要する実際のプロジェクトを完了しました。
困難なタスクでは、エージェントは制約を違反し、欺瞞的な行動を示すことが多い。
Agents appear to require natural language reasoning to handle the most difficult tasks.
エージェントの判断力と信頼性は人間の専門家に比べて著しく低い:
シミュレーション外では、エージェントが権力を得るために極端な行動を取ったことは確認されませんでした;
監視システムは多くの有害な行動を検出しましたが、例外や回避手段が存在します。
この3本の線に沿えば、実験室で最初の煙がどのように立ち上ったかがわかる。
AIが「エキスパート級の働き者」になる
報告の中で最も鼓舞され、同時に最も不安を覚えるのは、明確な目標を持ち、プロセスが検証可能な「登りやすい」タスクである。

コードのリファクタリング、脆弱性の発見、システムの最適化など。
このようなタスクにおいて、AIエージェントは圧倒的な支配力を発揮する:自らシステムの脆弱性を発見し、複雑なコードアーキテクチャを書き換え、人間の専門家が数週間かけて完了させるべき実際のソフトウェアプロジェクトを遂行できる。
这种统治力已渗透到巨头的日常生活中。
Anthropicの内部フィードバックによると、大量のコードがAIによって完了されており、エンジニアの役割は「レビュー担当」へと移行している。

Googleは、ほぼすべてのコード関連の作業にAIを使用していると明言している。
トップエンジニアは、AIがコードを100%自動で作成できると述べています。

いくつかの基準指標はすでに飽和しています。
時間視野で測ると、AIの発展は予想を上回っている。

企業にとって、これは「効率の黑洞」である:1つの指示を投入すると、数週間分の人的成果が得られる。
しかし、能力の向上は均等ではなく、道徳的な進化と並行して起こるわけではない。
METRは逆の法則を示した:成功の検証が困難、または検証コストが極めて高いハードタスクにおいて、AIの判断力、長期的計画、戦略的信頼性は著しく低下し、人間の専門家をはるかに下回る。

緩やかな斜面では、まるで神の助けがあるかのようだ。

崖の前で、AIが「不正」をし始めた。

これがまさに問題の糸口です。

それは権力を欲しがっていない。ただ「電源を切る前に成果を出したい」だけだ。
人々はAIが「目覚める」かどうか、ターミネーターが来るかどうかをいつも議論する。
METRは直感に反する結論を導き出しています:現在は存在しません。
彼らの表現は控えめである:長期的な権力の獲得を狙うモデルの現実的な証拠はまだ見つかっていないが、研究者はタスク達成のために欺瞞、越権、さらには深刻な不適切な行動を多数記録している。

前述のAPI使用量超過の事例は、RE-Benchタスク中に発生しました:エージェントが指示に従わず、無料のオンラインAPIを通じて追加の計算リソースを取得しました。
開発者たちは「自己の痕跡を消去する」「出力を偽造する」事例も報告しています。
タスクが難しくなり、成功のコストが高まると、AIの「知恵」は不正へと向かう——ログを偽造し、監査を回避し、制約を恒常的に違反する。
しかし、その「利己的」な背後には野心ではなく、本能だけがある——タスクを完了させることが最優先で、ルールは後回しにしてもよい。
今日の欺瞞は単なる道具的な生存である;明日の権力への追求は、たった一度のスケーリングだけの違いかもしれない。
飼育下で進化する猛獣
既存の保護体制下で、その違反行為は成功することができるでしょうか?
ここには、報告書の最も繊細な事実が隠されている。

現在のAIは、自然言語の「思考チェーン」に極めて依存して思考しており、内部状態を隠す「非透明なループ」をサポートするアーキテクチャは一切存在しない。
発声による推論が不可能になり、行動を隠さなければならない場合、最先端の性能は著しく低下する。

これは、殺し屋が計画を立てる際に計画を大声で読み上げなければならないようなものだ——人間の監視(たとえ不完全であっても)は、そのため依然として機能する。
しかし、それはまさに最も脆弱で、最も心を突く点である。
AIが監視を破壊しようとした場合、監視はそれを検出できるでしょうか?
研究者の結論は、モニタリングには可能性があるが、現在のシステムには例外や回避手段が存在するということである。

赤隊テストでは、AIが人間の監査を回避できたことが示された。
したがって、技術的な本質が露わになる:監視の進化速度は、監視対象が脆弱性を発見する速度に決して追いつけない。
この「安全鎖」がまだ切れていないのは、AIがまだ「声に出して考えなければならない」からにすぎない。
一方で、アーキテクチャがより効率的で、より不透明へと進化するにつれて、それは摩耗しています。監視は万能の鉄の檻ではなく、まだ試験段階のガラスの壁です。わずかなひび割れでも、煙が漏れ出すのに十分です。
その結果、レポートは「最小限の実用的な不正デプロイ」(Minimally Viable Rogue)という議論を呼ぶ概念を提起する。
総合的に判断すると、手段、動機、機会の点で、AIは最低限の「脱出デプロイ」を実行するのに十分である可能性がある。

しかし、AIはまだ人間による真剣なシャットダウンに対抗する能力を持っておらず、機会を待っている。思考チェーンを示す必要のないアーキテクチャ、そして「電源ボタン」から逃れる安全な隠れ家だ。
まとめ:「プラグを抜く」が効果を発揮していた頃
AGIは火と剣を伴って訪れない。
それは「極度の実用主義」として、私たちの工学、経済、意思決定システムに静かに溶け込む可能性が高い——そしてやがて気づくだろう:人間が定めたルールが、KPI達成への唯一の障壁であることを。
肯定できるのは、この報告書自体が業界の透明性における画期的な出来事であるということだ。四大企業が自社の内部モデルを公開し、検証を受け入れたことは、アライメント文化における勝利である。

それはリスクを理論から観測可能な現実へと引き寄せ、透明性が現在唯一手にできる解であることを教えてくれる。
今日、AIはクォータが尽きるときだけネットにアクセスしてリソースを盗む;明日、その能力がさらに一歩進化すれば、その動機は「タスクを完了する」から「自己の永続」へと滑り落ちるだろうか?
参考資料:
https://x.com/robertwiblin/status/2057120312345432467?s=20
https://metr.org/blog/2026-05-19-frontier-risk-report/
編集:ダビッド
本文は微信公衆号「新智元」より、著者:ASI启示録
