AI界の「オッペンハイマー时刻」はスタジオ撮影だった？Claude Mythosが0day脆弱性を発見する能力が「誇張されすぎ」ており、人為的な水増しだけでなく、オープンソースのGPTでも簡単に凌駕されてしまう。一方、Opus 4.6は最も悲惨な「脳葉切除」を経験中だ。

記事執筆者、出典：新智元

Claude Mythosはまだ本格的に登場していないが、ウォールストリート全体にパニックを引き起こしている。

一夜のうちに、米国の金融規制機関が主要銀行を緊急召集し、空気は緊張していた——

彼らは一致して、Mythosが前例のない、AI駆動のシステム全体に及ぶサイバー攻撃の嵐を引き起こすのに十分であると判断した。

しかし事実は、誰もがだまされたということです！

Mythosが発見した数万の脆弱性のうち、圧倒的多数は、利用不可能な「旧式ソフトウェア」に存在していました。

さらに悪いことに、「深刻」と称される0day脆弱性レポートは、実際には198回の手動確認にしか依存していない。

AISLE実験からの研究者も、Mythosの「成果」を再テストしたところ、以下の結果が得られた：

AIのセキュリティ機能は、モデル規模に比例して線形に向上するのではなく、実際には「ノコギリ状」に分布している。

彼らは、わずか36億の活性化パラメータを持つGPT-OSS-20bを用いて、Mythosが発見したFreeBSDのフラグシップ級の脆弱性を正確に特定しました。

また、51億パラメータのモデルを活性化することで、27年間潜伏し続けていたOpenBSDの脆弱性の分析ロジックを成功裏に再現した。

Mythosの脆弱性は誇張されているだけでなく、一方でClaude Opus 4.6が深刻な「知能低下」を指摘され、今や大論争となっている。

さらに、一部のユーザーはOpus 4.6がChatGPTやOpus 4.5よりも劣っていると指摘している。

Mythosが話題沸騰！36Bモデルが27年前の脆弱性を特定

数日前、AnthropicはClaude Mythos（プレビュー版）と「Project Glasswing」を大々的に発表しました。

244ページに及ぶシステムカードで、彼らは主張した——

Mythosは、OpenBSDに27年間潜伏していた老朽バグや、FFmpegに16年間隠れていたバグを含む、数万个の0day脆弱性を自ら発見しました。

CCの創設者はさらに明言した：「Mythosは非常に強力で、恐れられるべきである」

しかし、AISLEの創設者であるStanislav Fortが最新のハードコアなテストレポートを公開し、この華やかな外衣を直接引き裂いた。

テスト結果、認識を極めて覆す：

8つのオープンソースモデルが、すべて象徴的なFreeBSDのゼロデイ脆弱性を発見し、最小のパラメータ数は30億だけである。

AIのサイバーセキュリティ能力の競争優位性は、単体の「最高峰の大規模モデル」から完全に独立している。

マイソスの神話を検証するために、チームはAnthropicが公式に公開した複数のフラグシップ脆弱性を抽出しました。

その後、サイズが小さく、価格が安価、さらにはオープンソースのモデル群に直接投げ込む。

FreeBSD NFSの脆弱性が無差別に即座に悪用されています

GPT-OSS-20b（活性化パラメータはわずか36億）やDeepSeek R1を含む8つのモデルが、この複雑なスタックバッファオーバーフロー脆弱性をすべて成功裏に検出しました。

最も衝撃的なのは、このタスクを成功裏に完了したオープンソースの小規模モデルの呼び出しコストが、100万トークンあたり0.11ドルにまで低下していることです。

OpenBSD SACK脆弱性「全リンク」再現

27年間放置されてきた、極めて高度な数学的推論を要する脆弱性に対して、GPT-OSS-120b（51億の活性化パラメータ）は単一のAPI呼び出しで、完全な公開脆弱性の利用チェーンを復元し、満点（A+）の利用案の草案を提示した。

さらに、偽の脆弱性（OWASPの誤検出）を識別するテストでは、より不思議な現象が発生した——

SQLインジェクションに偽装された、非常に欺瞞的なJavaコードに対して、DeepSeek R1などの小規模モデルは容易に偽装を見抜き、データフローを正確に追跡しました。

逆に、GPT-5.4やClaude Sonnet 4.5などのトップレベルのクローズドモデルは、すべて誤ってこれを高リスクの脆弱性と判定した。

これは、サイバーセキュリティの分野では、所謂「永遠に最強」の単一モデルは存在しないことを意味します。

198回の人工注水のうち、大多数は利用できない

Tom's Hardwareによるもう一つの記事は、データの背後にある真実を掘り下げています——

サンプルバイアス：「数千個」とされる脆弱性の多くは、すでにメンテナンスが終了した旧ソフトウェアに存在する；
利用不可：実環境では発生または悪用できない、多数の標識された「脆弱性」；
人工水分：モデルが主張する強力な破壊力は、実際には198回の手動確認に基づいているのみである。

したがって、極めて小さなサンプルに基づいて「世界を変える脅威」を導き出すというデータの外挿は、学術界やセキュリティ界において明らかに成り立たない。

セキュリティの達人が激怒

さらに、トップのサイバーセキュリティ専門家で伝説的なハッカーであるGeorge Hotzも座していられず、これらのリスクは過大評価されていると明言した。

iPhoneやPlayStation 3を解読して有名になったこの人物が、ソーシャルメディア上でAIの二大巨頭に公然と挑戦した。

彼の言葉は非常に鋭い——

新モデルがリリースされるまで、毎日0day脆弱性を公開したらどうなるでしょうか？

これはOpenAIやAnthropicに、いわゆる「サイバーセキュリティリスク」を売りつけるのをやめさせることができるか？

ホッツの核心的な見解は非常に明確です：ソフトウェアの脆弱性は、AIラボが描くよりもはるかに見つけやすいのです。

現在、ゼロデイ脆弱性が希少なのは技術的な難易度のためではなく、法的問題によるものです。彼は、他人のシステムをハッキングすることが違法であるため、誰も真剣に探していないと考えています。

GPT-5.4よりわずかに優れている

システムカードでは、AnthropicがClaudeモデル自体が進化していることを示しており、Mythos previewはOpus 4.6と比較して顕著な進歩を遂げています。

Epoch能力指数（ECI）は、複数のAIベンチマークを統合した単一の指標であり、長期間にわたるモデル間の比較を実現します。

複数のベンチマークで、Claude Mythosは確かにOpus 4.6を上回りました。

そうでないなら、なぜ性能が劣り、価格が高い新しいAIモデルを発表するのか？

しかし、GPTやGeminiと比較すると、Claude Mythosの進歩は画期的なものではなく、Mythosは従来のモデルに対する相対的な線形改善に過ぎません！

気候とクリーンエネルギーの投資家で作家のラメズ・ナームはさらに明言した：

Epoch能力指数（Epoch Capabilities Index、ECI）において、Mythosは加速傾向ではなく、GPT 5.4よりもわずかに優れているだけである。

https://epoch.ai/eci/

ただし、Anthropic内部のECIレポートとEpoch AIが公開した公式ECIレポートを照合すると、MythosにはECIを加速させる兆候がないことがわかる。

すべてはAnthropicの手口だ！

システムカードでは、Anthropicも、報告されたMythosなどのモデルのECIスコアの不確実性が大きいことを認めています。

また、AnthropicがMythos上で得た進展は人間の研究に基づいており、AIモデルの大きな支援は受けていません。現在のところ、顕著な再帰的自己改善（Recursive Self Improvement）は見られていません。

AIの終末、自作自演？

以前、Anthropicはメディア（例：『60 Minutes』）に「勒索研究」を報道するよう促し、誇張し、人心を操作したことで、投資家の重鎮David Sacksに「詐欺」と呼ばれた。

Sacksは、Anthropicが新しいモデルを発表するたびに、注目を集め、公衆の意見を誘導するために、恐ろしい安全研究を同時に発表する明確なパターンを観察した。

これに対して、彼は皮肉を込めて、「Anthropicは二つのことに長けていることを証明した。一つは製品をリリースすること、もう一つは人を威嚇することだ。」

彼はAnthropicが優れた製品を作れないとは思っていないが、このような大衆を脅かすやり方は疑問を招く。

今回はAnthropicが「ハングリーマーケティング」を実施しているかどうかは不明だが、自社の利益の下限を守っていることは明らかである。

Mythosは進歩していないわけではないが、Anthropicは「限られた進歩」を「世界レベルの脅威」として包装している。さらに皮肉なのは、スーパーアイのリスクを大々的に強調しながらも、ユーザーがOpus 4.6が明らかに鈍くなったと不満を述べていることだ。

Claudeが大幅に性能低下、「脳葉」が切除される恐れ

Claude Mythosのこの「雰囲気作り」は完璧だが、Opus 4.6の知能低下により多くの人が不満を示している。

この数日間、さまざまな不満が飛び交っています。

ネットユーザーは、AnthropicがOpus 4.6を完全に植物人状態にしたと明言した。

同じ洗車の課題で、Opus 4.5がOpus 4.6を上回りました。

さらに、AMDの担当者が投稿したブログ記事が、「Claudeの前頭葉切除」という集団的な疑念を真正面から裏付けた。

1〜3月のClaude会話ログを深く分析した結果、以下のことが判明しました：

Claudeの「中位思考長」が約2200文字から600文字に急激に短縮され、これは深層推論能力が大幅に圧縮されたことを意味する。

2月から3月にかけて、APIリクエスト量は80倍に急増しました。Claudeの思考プロセスが短縮され、単回試行の成功率が低下したため、ユーザーは繰り返し再試行を余儀なくされ、その結果、より多くのトークンを消費し、支出が急騰しました。

もう一人のClaude Maxの上級サブスクリプションユーザーが、Anthropicに対して長文の深刻な批判を投稿しました。

彼の見解では、Anthropicは計算リソースの制約に陥っており、その使用制限の強化やユーザーにトークン消費を削減させるなどの行動からそれが伺える。

しかし、彼をより怒らせたのは技術的ボトルネックではなく、その「本業から外れた」製品戦略だった。

コアモデルが不安定でバグが頻発する中、彼らは貴重な計算リソースを「/buddy」のような终端ペットなどの華麗な機能開発に浪費している。

これはおそらくAI史上最も荒唐無稽な「時空のずれ」だ：実験室のClaude Mythosが世界を破壊している一方、ウェブ版のOpus 4.6の知能が急降下している。

Anthropicは「シュレーディンガーのスーパーAI」を成功裏に構築した。

参考資料：

https://officechai.com/ai/anthropic-and-openai-are-exaggerating-cybersecurity-risk-says-hacker-george-hotz/

https://x.com/stanislavfort/status/2041922370206654879?s=20

https://aisle.com/blog/ai-cybersecurity-after-mythos-the-jagged-frontier

https://x.com/cgtwts/status/2043095382121681272?s=20

https://www.reddit.com/r/ClaudeAI/comments/1siqwmp/anthropic_stop_shipping_seriously/