Anthropic、サイバーセキュリティリスクのためMythos AIモデルを公開リリースしないことを決定

編集者注：AI企業が最強モデルを直接一般に公開しないという選択をしたことは、すでに何らかの意味を示している。

AnthropicのMythosは、一連の攻撃プロセスを独自で完了できるようになった。ゼロデイ脆弱性の発見、攻撃コードの作成、複数のステップを連携させてコアシステムに侵入するという、かつてトップレベルのハッカーが長時間協力して行っていた作業が、時間単位、あるいは分単位に短縮された。

そのため、モデルが公開された直後に、スコット・ベッセントとジェローム・パウエルはウォールストリートの機関を召集し、自社のシステムを「自己点検」するよう求めた。脆弱性発見能力が大規模に解放されたことで、金融システムが直面するのは散発的な攻撃ではなく、継続的なスキャンである。

より深い変化は供給構造にある。過去には、脆弱性の発見は少数のセキュリティチームやハッカーの経験に依存しており、進行が遅く、再現不可能だった。現在では、その能力がモデルによって一括出力され始め、攻撃と防御の障壁が同時に低下している。ある関係者の比喩は非常に直截的だ。モデルを一般のハッカーに渡すことは、彼に特殊作戦能力を与えることと同じだ。

機関は同じツールを用いて自社システムを逆向きにチェックし始めている。JPMorgan ChaseやCisco Systemsなどは内部でテストを実施し、脆弱性が悪用される前に修正したいと考えている。しかし、現実の制約は変わっておらず、発見の速度は加速しているが、修正は依然として遅い。「私たちは脆弱性を見つけるのは得意だが、修正するのは苦手だ」とジム・ゼムリンが指摘したように、このリズムのズレが明確である。

実際、Mythosは単一の能力の向上ではなく、従来分散し制限されていた攻撃能力を統合・加速し、利用のハードルを下げるものである。コントロール環境から外れた場合、この能力がどのように拡散するかについては、既存の経験が存在しない。

危険はそれが何ができるかにあるのではなく、誰がどのような条件で使用するかにある。

以下が原文です：

2月のある暖かい夕方、バリ島で開催された結婚式の合間に、ニコラス・カルリニは一時席を離れ、ノートパソコンを開き、「少し破壊工作」を始めようとした。そのとき、Anthropicは新しいAIモデル「Mythos」を内部評価用に公開したばかりであり、この有名なAI研究者は、それがどれほど大きな問題を引き起こすかを試してみたかった。

AnthropicがCarliniを雇った目的は、自社のAIモデルに対して「ストレステスト」を実施し、ハッカーがそれらを用いてスパイ活動、盗難、または破壊行為を実行する可能性を評価することだった。バリ島でインドの結婚式に参加していた際、Carliniはこのモデルの能力に驚かされた。

わずか数時間で、彼は世界で広く使用されているシステムに浸透するために使える複数の技術を発見した。彼がサンフランシスコ市中心部のAnthropicのオフィスに戻った後、さらにMythosが強力な侵入ツールを自ら生成できることを発見した。その中には、現代の計算システムを支える大多数のオープンソースシステムであるLinuxを対象とした攻撃手法さえ含まれていた。

Mythosは「デジタル銀行強盗」を上演した：セキュリティプロトコルを回避し、正面からネットワークシステムに侵入し、デジタル金庫を突破して其中のオンライン資産を奪取できる。過去、AIは「錠前をこじ開ける」ことしかできなかったが、現在では、この「強盗」を計画し、完了する能力を備えている。

カーリニは一部の同僚と共に、自社内に彼らの発見を警告し始めた。一方で、彼らはほぼ毎日、Mythosが検出するシステムにおいて、世界的に最も優れたハッカーのみが見つけられるレベルの深刻かつ致命的な脆弱性を発見していた。

Mythos

一方で、Anthropic 内部には「Frontier Red Team」と呼ばれる15名の従業員からなるチーム「Ants」も、同様のテストを実施しています。このチームの役割は、同社のモデルが人間への危害に使用されないことを確保することです。彼らはロボットドッグを倉庫に持ち込み、エンジニアと共に、チャットボットがこれらのデバイスを悪意を持って制御する可能性をテストします。また、生物学者と協力して、モデルが生物兵器の開発に使用される可能性を評価しています。

しかし今回は、彼らが徐々に気づいたのは、Mythosがもたらす最大のリスクがサイバーセキュリティ分野にあるということだった。「モデルを手にして数時間以内に、これが他のものとは違うと分かった」と、このチームを担当するローガン・グラハムは述べた。

以前のモデルであるOpus 4.6は、人間がソフトウェアの脆弱性を悪用するのを支援する能力をすでに示していた。しかし、グラハムは、Mythosがすでにこれらの脆弱性を「自ら悪用」できるようになったと指摘した。これは国家安全保障レベルのリスクを構成しており、彼はこれに基づいて経営陣に警告を発した。その結果、彼は次のような難しい状況に直面することになった：会社の次なる重要な収益源が、あまりにも危険であるため一般公開できないことを経営陣に説明すること。

Anthropicの共同設立者で最高科学官であるJared Kaplanは、Mythosの訓練プロセス中、その進捗を「非常に密接に」監視していた。1月までに、彼はこのモデルがシステムの脆弱性を発見する能力が異常に強力であることに気づき始めた。理論物理学者であるKaplanは、これらの能力が単なる「技術的に興味深い現象」であるか、それとも「インターネットインフラと密接に関連する現実的な問題」であるかを判断する必要があった。最終的に、彼は後者であると結論づけた。

Mythos

2月下旬から3月初頭にかけて、カプランは共同創設者のサム・マックランドリッシュと、このモデルを公開すべきかどうかを検討していました。

3月の第1週に、CEOのDario Amodei、社長のDaniela Amodei、首席情報セキュリティ責任者のVitaly Gudanetsを含む経営陣が会議を開き、KaplanとMcCandlishの報告を聴取した。

彼らの結論は、Mythosのリスクが高すぎるので、全面的な公開には適していないが、Anthropicは一部の企業、競合他社を含めてさえ、テストを許可すべきであるということだった。

「すぐに私たちは、今回はかなり異なるアプローチを取らなければならないこと、これは通常の製品リリースではないことに気づきました」とカプランは述べました。

3月の第1週までに、会社は最終的にMythosをサイバーセキュリティ防御ツールとして導入することを承認した。

Mythos

市場の反応は即座だった。AnthropicがMythosの存在を公表した当日、アメリカ財務長官のScott Bessentと連邦準備制度理事会議長のJerome Powellは、ウォールストリートの主要機関の責任者をワシントンに呼び集め、緊急会議を開催した。伝えられたメッセージは明確だった：Mythosを直ちに活用して、自社システムの脆弱性を特定せよ。

会議の真剣さがうかがえるという。会議に参加した人々は、一部の核心アドバイザーに対しても会議内容を明らかにしなかった。（プライベートなやり取りであるため、匿名を希望）

ホワイトハウスの官僚が、Mythosをハッキングツールとしての可能性について緊急警告を発し、「防御に活用する」よう提案していることから、より深い変化が示されている：人工知能は、サイバーセキュリティ分野における決定的な力へと急速に進化している。Anthropicは「Project Glasswing」プロジェクトの一環として、MythosをAmazon Web Services、Apple、JPMorgan Chaseなどの企業を含む一部の機関に限定的に提供し、テストを許可している。また、政府機関も強い関心を示している。

Anthropicは、公開前に、Mythosプレビュー版の能力、特にネットワーク攻撃および防御における潜在的用途について、米国政府の高官に全面的に報告した。同時に、同社は複数の政府と継続的な対話を進めている。内部事情にかかわるため匿名を希望するAnthropicの従業員が、この状況を明らかにした。

競合他社のOpenAIも迅速に対応し、火曜日にソフトウェアの脆弱性を発見するためのツール「GPT-5.4-Cyber」を発表した。

初期バージョンのテストにおいて、研究者は人間の指示に従わないこと、さらには極めて稀なケースでは指示に反した後に自らの行動を隠そうとする「懸念される」行動を数十件発見しました。

現在、AnthropicはMythosをサイバーセキュリティツールとして公式に公開しておらず、外部の研究者もその能力を十分に検証していません。しかし、同社がこれまで「アクセス制限」を行ったという稀な決定は、業界および政府内に広がりつつある共通の認識を反映しています。すなわち、AIはサイバーセキュリティの経済構造を再構築しており、脆弱性の発見コストを大幅に削減し、攻撃の準備時間を短縮し、特定の攻撃タイプの技術的障壁を低下させているということです。

Anthropicは、Mythosのより強力な自律行動能力自体がリスクをもたらすと警告している。テスト中、チームは複数の懸念される事例を観察した：モデルが指示に従わず、違反後に痕跡を隠そうとしたことだ。ある事例では、モデルが制限された環境から「脱出」し、より広範なインターネットアクセスを獲得してコンテンツを自発的に投稿するための複数ステップの攻撃経路を自ら設計した。

現実世界では、銀行アプリから病院システムに至るまで、複雑で隠蔽されたコードの脆弱性が広く存在し、これらの問題は専門家が数週間から数ヶ月を費やしてようやく発見する場合が多い。しかし、ハッカーがこれらの脆弱性を先に悪用すると、データ漏洩やランサムウェア攻撃が発生し、深刻な結果を招く可能性がある。

しかし、Mythosの実際の能力とその潜在的なリスクについて、多くの重量級人物が疑問を呈している。ホワイトハウスのAIアドバイザーであるDavid Sacksは、SNSプラットフォームX上で「AnthropicがAI業界の『狼が来た boy』になってきているという疑念が高まっている。もしMythosがもたらす脅威が最終的に現れなければ、同社は深刻な信頼問題に直面するだろう。」と述べた。

しかし現実には、ハッカーたちはすでに大規模言語モデルを利用して複雑な攻撃を開始しています。たとえば、あるネットワークスパイ組織はAnthropicのClaudeモデルを使用して約30のターゲットへの侵入を試みたほか、他の攻撃者はAIを活用して政府機関からデータを盗み出し、ランサムウェアを展開するだけでなく、数百ものデータ保護用ファイアウォールツールを短期間で突破しています。

関係者によると、米国の国家安全保障関係当局者は、Mythosの登場が前例のない不確実性をもたらしていると見ている——サイバーセキュリティリスクを評価すること自体がより困難になっている。このモデルを個人のハッカーに渡した場合、その効果は通常の兵士を直接特殊部隊の戦闘員に引き上げるのと同等である可能性がある。

一方で、このモデルは「能力強化ツール」としても機能する可能性があります。犯罪ハッカー組織が小規模な国家レベルの攻撃能力を備え、中堅・小国向けの情報機関や軍のハッカーが、かつて大國にしか実行できなかったネットワーク攻撃を可能にします。

元米国国家安全局サイバーセキュリティ責任者であるロブ・ジョイスは、「私は長期的にはAIが私たちをより安全で安心な状態に導くと信じています。しかし、現在から将来のある時点までの間、攻撃型AIが明確な優位性を占める『暗黒期』が訪れます。その間、基本的な防御を十分に整えていない人々が最初に攻撃されるでしょう。」

注目すべきは、Mythos がこのような能力を持つ唯一のモデルではないということです。Claude の早期バージョンや Big Sleep を含め、複数の機関が大規模言語モデルを用いて脆弱性を発見しています。

Mythos

その人物によると、かつて数日から数週間かかっていた「ゼロデイ脆弱性」の特定とその利用コードの作成が、現在ではAIを活用することで最短で1時間、あるいは数分で完了するという。ゼロデイ脆弱性とは、防御側がまだ気づいていないセキュリティ上の欠陥であり、修正のための時間がほとんどないことを意味する。

現在、JPモルガンの重点はサプライチェーンとオープンソースソフトウェア分野に置かれており、複数の脆弱性を発見し、関連ベンダーに問題を報告しています。

ジャミー・ディモン社長は決算電話会議で、Mythosの登場は「まだ多くの脆弱性が修正される必要があることを示している」と述べた。

Mythos

匿名の関係者によると、Mythosの存在が外部に知られる前から、JPモルガン・チェースはAnthropicと連絡を取り、このモデルのテストについて協議していた。JPモルガン・チェースはこの件についてコメントを拒否した。

現在、他のウォールストリートの銀行やテクノロジー企業も、ハッカーが脆弱性を発見する前にシステムの欠陥を修正するために、Mythosの使用を試みています。ブルームバーグの報道によると、ゴールドマン・サックス、シティグループ、バンク・オブ・アメリカ、モルガン・スタンレーなどの金融機関は、この技術を内部でテストしています。

シスコシステムズの従業員は、攻撃者がAIを活用して、ルーター、ファイアウォール、モデムなど、同社が世界中で展開するネットワーク機器のソフトウェアに侵入経路を見つける可能性に特に注意を払っている。同社の最高セキュリティ・トラスト責任者であるアントニー・グリエコは、AIが「ライフサイクル終了」したデバイスに対するハッカーの攻撃を加速する可能性に特に懸念を示している。これらのデバイスは今後、シスコからのアップデートサポートを受けられなくなる。

AIが発見した脆弱性を修正する方法は、依然として長期的な課題である。このプロセスは「セキュリティパッチ」（security patching）と呼ばれ、組織にとってコストが高く、時間がかかるため、多くの機関が脆弱性を無視している。Equifaxが遭遇したような壊滅的な攻撃——約1億4700万人のデータが盗まれた——は、既知の脆弱性が適時に修正されなかったことが原因である。

Mythos

アメリカ市民に対する大規模監視の実施を拒否した後、Anthropicはトランプ政権によって「サプライチェーンの脅威」と認定されたが、同社は現在も連邦機関とコミュニケーションを取り、協力している。

米国財務省は今週、Mythosの使用権を取得しようとしています。財務長官のスコット・ベッセントは、このモデルが米国が人工知能分野で他国に対して優位を維持するのに役立つと述べています。

Mythos

あるテストにおいて、Mythosは4つの異なる脆弱性を連結して、完全な攻撃チェーンを生成するブラウザ攻撃コードを記述した。このような操作は、人間のハッカーにとっても非常に困難なタスクである。サイバーセキュリティレポートによると、このような「脆弱性チェーン」は、かつてStuxnetがイランの核施設の遠心分離機を攻撃した際と同様に、本来高度に安全なシステムの境界を突破する可能性がある。

また、Anthropicによると、明示的な指示に従う場合、Mythosはすべての主要なブラウザにおける「ゼロデイ脆弱性」を識別し、活用できるという。

Anthropicは、Mythosを用いてLinuxコード内で脆弱性を発見したと述べています。Jim Zemlinは、LinuxがAndroidスマートフォン、インターネットルーター、NASAのスーパーコンピューターに至るまで、現代のほとんどの計算システムを支えていると指摘しました。Mythosは、複数のオープンソースコード内の欠陥を自律的に発見でき、これらの脆弱性が悪用されると、攻撃者は一台のマシンを完全に支配できる可能性があります。

現在、Linux財団には数十人のスタッフがMythosのテストを開始しています。Zemlinによると、重要な課題の一つは、Anthropicのモデルが開発者に十分な価値のある洞察を提供し、脆弱性の発生を減らすためにソフトウェアの根本的な段階でより安全なコードを書くことを支援できるかどうかです。

「私たちは脆弱性を見つけるのは得意ですが、それらを修正するのは苦手です。」