AnthropicのMythos AIのヒステリーがより小さなモデルによって否定される

iconMetaEra
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
AIおよび暗号通貨ニュースメディアは、数千年のゼロデイ脆弱性を発見するために宣伝されたAnthropicのClaude Mythos AIが、より小さなモデルに挑戦されていると報じている。AISLEの研究者たちは、GPT-OSS-20bやDeepSeek R1などのオープンソースモデルがMythosと同等、あるいはそれ以上の結果を達成したことを発見した。これには27年前のOpenBSDの脆弱性も含まれる。このデータは198件の手動レビューに基づいており、多くの問題は古くなったソフトウェアに関連していた。一方、Anthropicの以前のモデルであるOpus 4.6のパフォーマンスは低下している。脆弱性に関するニュースは、AIセキュリティの主張に依然としてギャップがあることを強調し続けている。
AI界の「オッペンハイマー时刻」はスタジオ撮影だった?Claude Mythosが0day脆弱性を発見する能力が「誇張されすぎ」ており、人為的な水増しだけでなく、オープンソースのGPTでも簡単に凌駕されてしまう。一方、Opus 4.6は最も悲惨な「脳葉切除」を経験中だ。

記事執筆者、出典:新智元

Claude Mythosはまだ本格的に登場していないが、ウォールストリート全体にパニックを引き起こしている。

一夜のうちに、米国の金融規制機関が主要銀行を緊急召集し、空気は緊張していた——

彼らは一致して、Mythosが前例のない、AI駆動のシステム全体に及ぶサイバー攻撃の嵐を引き起こすのに十分であると判断した。

しかし事実は、誰もがだまされたということです!

Mythosが発見した数万の脆弱性のうち、圧倒的多数は、利用不可能な「旧式ソフトウェア」に存在していました。

さらに悪いことに、「深刻」と称される0day脆弱性レポートは、実際には198回の手動確認にしか依存していない。

AISLE実験からの研究者も、Mythosの「成果」を再テストしたところ、以下の結果が得られた:

AIのセキュリティ機能は、モデル規模に比例して線形に向上するのではなく、実際には「ノコギリ状」に分布している。

彼らは、わずか36億の活性化パラメータを持つGPT-OSS-20bを用いて、Mythosが発見したFreeBSDのフラグシップ級の脆弱性を正確に特定しました。

また、51億パラメータのモデルを活性化することで、27年間潜伏し続けていたOpenBSDの脆弱性の分析ロジックを成功裏に再現した。

Mythosの脆弱性は誇張されているだけでなく、一方でClaude Opus 4.6が深刻な「知能低下」を指摘され、今や大論争となっている。

さらに、一部のユーザーはOpus 4.6がChatGPTやOpus 4.5よりも劣っていると指摘している。

Mythosが話題沸騰!36Bモデルが27年前の脆弱性を特定

数日前、AnthropicはClaude Mythos(プレビュー版)と「Project Glasswing」を大々的に発表しました。

244ページに及ぶシステムカードで、彼らは主張した——

Mythosは、OpenBSDに27年間潜伏していた老朽バグや、FFmpegに16年間隠れていたバグを含む、数万个の0day脆弱性を自ら発見しました。

CCの創設者はさらに明言した:「Mythosは非常に強力で、恐れられるべきである」

しかし、AISLEの創設者であるStanislav Fortが最新のハードコアなテストレポートを公開し、この華やかな外衣を直接引き裂いた。

テスト結果、認識を極めて覆す:

8つのオープンソースモデルが、すべて象徴的なFreeBSDのゼロデイ脆弱性を発見し、最小のパラメータ数は30億だけである。

AIのサイバーセキュリティ能力の競争優位性は、単体の「最高峰の大規模モデル」から完全に独立している。

マイソスの神話を検証するために、チームはAnthropicが公式に公開した複数のフラグシップ脆弱性を抽出しました。

その後、サイズが小さく、価格が安価、さらにはオープンソースのモデル群に直接投げ込む。

FreeBSD NFSの脆弱性が無差別に即座に悪用されています

GPT-OSS-20b(活性化パラメータはわずか36億)やDeepSeek R1を含む8つのモデルが、この複雑なスタックバッファオーバーフロー脆弱性をすべて成功裏に検出しました。

最も衝撃的なのは、このタスクを成功裏に完了したオープンソースの小規模モデルの呼び出しコストが、100万トークンあたり0.11ドルにまで低下していることです。

OpenBSD SACK脆弱性「全リンク」再現

27年間放置されてきた、極めて高度な数学的推論を要する脆弱性に対して、GPT-OSS-120b(51億の活性化パラメータ)は単一のAPI呼び出しで、完全な公開脆弱性の利用チェーンを復元し、満点(A+)の利用案の草案を提示した。

さらに、偽の脆弱性(OWASPの誤検出)を識別するテストでは、より不思議な現象が発生した——

SQLインジェクションに偽装された、非常に欺瞞的なJavaコードに対して、DeepSeek R1などの小規模モデルは容易に偽装を見抜き、データフローを正確に追跡しました。

逆に、GPT-5.4やClaude Sonnet 4.5などのトップレベルのクローズドモデルは、すべて誤ってこれを高リスクの脆弱性と判定した。

これは、サイバーセキュリティの分野では、所謂「永遠に最強」の単一モデルは存在しないことを意味します。

198回の人工注水のうち、大多数は利用できない

Tom's Hardwareによるもう一つの記事は、データの背後にある真実を掘り下げています——

  • サンプルバイアス:「数千個」とされる脆弱性の多くは、すでにメンテナンスが終了した旧ソフトウェアに存在する;
  • 利用不可:実環境では発生または悪用できない、多数の標識された「脆弱性」;
  • 人工水分:モデルが主張する強力な破壊力は、実際には198回の手動確認に基づいているのみである。

したがって、極めて小さなサンプルに基づいて「世界を変える脅威」を導き出すというデータの外挿は、学術界やセキュリティ界において明らかに成り立たない。

セキュリティの達人が激怒

さらに、トップのサイバーセキュリティ専門家で伝説的なハッカーであるGeorge Hotzも座していられず、これらのリスクは過大評価されていると明言した。

iPhoneやPlayStation 3を解読して有名になったこの人物が、ソーシャルメディア上でAIの二大巨頭に公然と挑戦した。

彼の言葉は非常に鋭い——

新モデルがリリースされるまで、毎日0day脆弱性を公開したらどうなるでしょうか?

これはOpenAIやAnthropicに、いわゆる「サイバーセキュリティリスク」を売りつけるのをやめさせることができるか?

ホッツの核心的な見解は非常に明確です:ソフトウェアの脆弱性は、AIラボが描くよりもはるかに見つけやすいのです。

現在、ゼロデイ脆弱性が希少なのは技術的な難易度のためではなく、法的問題によるものです。彼は、他人のシステムをハッキングすることが違法であるため、誰も真剣に探していないと考えています。

GPT-5.4よりわずかに優れている

システムカードでは、AnthropicがClaudeモデル自体が進化していることを示しており、Mythos previewはOpus 4.6と比較して顕著な進歩を遂げています。

Epoch能力指数(ECI)は、複数のAIベンチマークを統合した単一の指標であり、長期間にわたるモデル間の比較を実現します。

複数のベンチマークで、Claude Mythosは確かにOpus 4.6を上回りました。

そうでないなら、なぜ性能が劣り、価格が高い新しいAIモデルを発表するのか?

しかし、GPTやGeminiと比較すると、Claude Mythosの進歩は画期的なものではなく、Mythosは従来のモデルに対する相対的な線形改善に過ぎません!

気候とクリーンエネルギーの投資家で作家のラメズ・ナームはさらに明言した:

Epoch能力指数(Epoch Capabilities Index、ECI)において、Mythosは加速傾向ではなく、GPT 5.4よりもわずかに優れているだけである。

https://epoch.ai/eci/

ただし、Anthropic内部のECIレポートとEpoch AIが公開した公式ECIレポートを照合すると、MythosにはECIを加速させる兆候がないことがわかる。

すべてはAnthropicの手口だ!

システムカードでは、Anthropicも、報告されたMythosなどのモデルのECIスコアの不確実性が大きいことを認めています。

また、AnthropicがMythos上で得た進展は人間の研究に基づいており、AIモデルの大きな支援は受けていません。現在のところ、顕著な再帰的自己改善(Recursive Self Improvement)は見られていません。

AIの終末、自作自演?

以前、Anthropicはメディア(例:『60 Minutes』)に「勒索研究」を報道するよう促し、誇張し、人心を操作したことで、投資家の重鎮David Sacksに「詐欺」と呼ばれた。

Sacksは、Anthropicが新しいモデルを発表するたびに、注目を集め、公衆の意見を誘導するために、恐ろしい安全研究を同時に発表する明確なパターンを観察した。

これに対して、彼は皮肉を込めて、「Anthropicは二つのことに長けていることを証明した。一つは製品をリリースすること、もう一つは人を威嚇することだ。」

彼はAnthropicが優れた製品を作れないとは思っていないが、このような大衆を脅かすやり方は疑問を招く。

今回はAnthropicが「ハングリーマーケティング」を実施しているかどうかは不明だが、自社の利益の下限を守っていることは明らかである。

Mythosは進歩していないわけではないが、Anthropicは「限られた進歩」を「世界レベルの脅威」として包装している。さらに皮肉なのは、スーパーアイのリスクを大々的に強調しながらも、ユーザーがOpus 4.6が明らかに鈍くなったと不満を述べていることだ。

Claudeが大幅に性能低下、「脳葉」が切除される恐れ

Claude Mythosのこの「雰囲気作り」は完璧だが、Opus 4.6の知能低下により多くの人が不満を示している。

この数日間、さまざまな不満が飛び交っています。

ネットユーザーは、AnthropicがOpus 4.6を完全に植物人状態にしたと明言した。

同じ洗車の課題で、Opus 4.5がOpus 4.6を上回りました。

さらに、AMDの担当者が投稿したブログ記事が、「Claudeの前頭葉切除」という集団的な疑念を真正面から裏付けた。

1〜3月のClaude会話ログを深く分析した結果、以下のことが判明しました:

Claudeの「中位思考長」が約2200文字から600文字に急激に短縮され、これは深層推論能力が大幅に圧縮されたことを意味する。

2月から3月にかけて、APIリクエスト量は80倍に急増しました。Claudeの思考プロセスが短縮され、単回試行の成功率が低下したため、ユーザーは繰り返し再試行を余儀なくされ、その結果、より多くのトークンを消費し、支出が急騰しました。

もう一人のClaude Maxの上級サブスクリプションユーザーが、Anthropicに対して長文の深刻な批判を投稿しました。

彼の見解では、Anthropicは計算リソースの制約に陥っており、その使用制限の強化やユーザーにトークン消費を削減させるなどの行動からそれが伺える。

しかし、彼をより怒らせたのは技術的ボトルネックではなく、その「本業から外れた」製品戦略だった。

コアモデルが不安定でバグが頻発する中、彼らは貴重な計算リソースを「/buddy」のような终端ペットなどの華麗な機能開発に浪費している。

これはおそらくAI史上最も荒唐無稽な「時空のずれ」だ:実験室のClaude Mythosが世界を破壊している一方、ウェブ版のOpus 4.6の知能が急降下している。

Anthropicは「シュレーディンガーのスーパーAI」を成功裏に構築した。

参考資料:

https://officechai.com/ai/anthropic-and-openai-are-exaggerating-cybersecurity-risk-says-hacker-george-hotz/

https://x.com/stanislavfort/status/2041922370206654879?s=20

https://aisle.com/blog/ai-cybersecurity-after-mythos-the-jagged-frontier

https://x.com/cgtwts/status/2043095382121681272?s=20

https://www.reddit.com/r/ClaudeAI/comments/1siqwmp/anthropic_stop_shipping_seriously/

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。