米国の政府機関が、中国の最も強力な人工知能に関する評価結果を発表した:8ヶ月遅れており、時間の経過とともにその差は拡大している。インターネットユーザーがその評価方法を読んだ後、さまざまな疑問を提起し始めた。
CAISI——アメリカ国立標準技術研究所(NIST)の下部組織である人工知能標準・イノベーションセンター——評価報告を発表。2024年5月1日にリリースされたDeepSeek V4 Proについて、その結論は、「DeepSeekのオープンソースのフラグシップ製品は、最先端技術に約8ヶ月遅れている」というものである。
CAISIは、これまでに評価された中最強の中国のAIモデルと称しています。
評価システム
CAISIは、ほとんどの評価機関とは異なり、ベンチマークスコアの平均を取らない。代わりに、標準化テストから導入された統計的手法である項目反応理論を適用し、各モデルがネットワークセキュリティ、ソフトウェアエンジニアリング、自然科学、抽象的推論、数学の5分野における9つのベンチマークテストでどの問題を解決し、どの問題を解決できなかったかを追跡することで、各モデルの潜在的能力を推定する。
IRT推定のEloスコアによると、GPT-5.5は1260点、AnthropicのClaude Opus 4.6は999点です。DeepSeek V4 Proのスコアは約800点(±28)で、GPT-5.4 miniの749点と非常に近いです。CAISIのスコアリングシステムでは、DeepSeekはOpusよりも前任のGPT miniに近い位置にあります。
ベンチマークにおけるスコアリングシステムは、標準化試験が学生を評価する方法を模倣しています——正解率を直接基準にするのではなく、学生が正解・不正解した問題の重みを考慮してスコアを推定します。このスコア推定値は、他のモデルと同一の評価で比較された場合にのみ相対的な意味を持ちます。一般的に、スコアが高いほどモデルの性能が優れ、最良モデルのスコアがモデル能力の基準点となります。
九つのベンチマークテストのうち二つが非公開であり、その二つのテストで差が最も顕著であるため、CAISIの結果を再現することはできません。たとえば、GPT-5.5はCAISIのサイバーセキュリティテストの一つであるCTF-Archive-Diamondで71%の得点を獲得したのに対し、DeepSeekの得点は約32%にすぎません。
公開ベンチマークでは状況が異なります。博士レベルの科学的推論を評価するGPQA-Diamondテスト(正答率で評価)では、DeepSeekの得点は90%で、Opus 4.6の91%に僅か1%差で及ばない結果となりました。数学オリンピックベンチマーク(OTIS-AIME-2025、PUMaC 2024、SMT 2025)では、DeepSeekの得点はそれぞれ97%、96%、96%でした。GitHub上の実際のバグ修正を対象としたSWE-Bench Verifiedテスト(解決率で評価)では、DeepSeekの得点は74%で、GPT-5.5は81%でした。DeepSeek自身の技術レポートでは、V4 Proの性能がOpus 4.6およびGPT-5.4と同等であると主張しています。
コスト比較のために、CAISIは、DeepSeekよりも性能が著しく低いか、単一トークンコストがDeepSeekよりもはるかに高いすべてのアメリカ製モデルを除外しました。結果として、GPT-5.4 miniのみが基準を満たしました。これは、アメリカで最も先進的なアルゴリズムをほぼ網羅した後、残った唯一のモデルです。
DeepSeekは7つのベンチマークテストのうち5つでより安価であり、OpenAIの最小かつ機能が最も制限されたAIモデルを上回りました。
反論:差は大きくなるか、それとも小さくなるか?
CAISIの方法論を批判しても、DeepSeekの正しさを完全に証明できるわけではない。この仮名でCAISIと名乗るAI開発者Ex0bitは直接反論した。「『差』など存在せず、誰も8ヶ月遅れてなどいない。閉鎖的販売のたびに私たちは嘲笑され、公開販売ではまた笑われてしまう。」
人工知能分析インテリジェントインデックスv4.0(10回の評価を通じて最先端モデルの知能を追跡する評価システム)によると、2026年5月現在、OpenAIの得点は60に近づいており、DeepSeekの得点は50程度で、1年前と比べて差が大きく縮小している。
標準化された基準に基づくと、彼らの方法は、格差が実際に縮小していることを示しています。
DeepSeek が登場したとき2025年1月、問題は中国がすでに追いついたかどうかだった。米国の各研究所が緊急に対応した。スタンフォード大学の2026年AI指数—4月13日に公開—によると、Claude Opus 4.6と中国のDola-Seed-2.0 PreviewとのArenaランキングの差は縮小しており、現在はわずか2.7%の差しかない。
CAISIは近い将来、より完全なIRT方法論の説明を公開する予定です。
