美國政府報告稱中國頂級AI模型落後8個月

幣界網報導：

美國一家政府機構發布了對中國最強大人工智慧的評估結果：落後八個月，且隨著時間推移，差距越來越大。網際網路用戶閱讀了該評估方法後，開始提出各種疑問。

CAISI——人工智能標準與創新中心，是美國國家標準與技術研究院 (NIST) 下屬的一個部門——發布評估報告。DeepSeek V4 Pro 於 5 月 1 日發布。結論是：DeepSeek 的開源旗艦產品「落後於前沿技術約 8 個月」。

CAISI 也稱其為迄今為止評估過最強大的中國人工智慧模型。

評分系統

CAISI 不像大多數評估機構那樣對基準分數進行平均。相反，它應用項目反應理論（一種來自標準化測試的統計方法）來估計每個模型的潛在能力，方法是追蹤每個模型在五個領域（網路安全、軟體工程、自然科學、抽象推理和數學）的九個基準測試中解決了哪些問題，沒有解決哪些問題。

根據 IRT 評估的 Elo 分數，GPT-5.5 為 1260 分，Anthropic 的 Claude Opus 4.6 為 999 分。DeepSeek V4 Pro 的分數約為 800 分（±28），與 GPT-5.4 mini 的 749 分非常接近。在 CAISI 的評分系統中，DeepSeek 更接近上一代 GPT mini，而非 Opus。

基準測試中的評分系統模擬了標準化考試給學生評分的方式——並非直接按正確率評分，而是根據學生答對和答錯題目的權重進行評分，從而得出分數估計值。該分數估計值只有在與其他模型進行同一評估時才具有相對意義。一般來說，分數越高，模型越好，最佳模型的分數將成為衡量模型能力的參考點。

由於九項基準測試中有兩項未公開，且差距在這兩項測試中最為顯著，因此無法複現 CAISI 的結果。例如，GPT-5.5 在 CAISI 的網路安全測試之一 CTF-Archive-Diamond 上的得分為 71%，而 DeepSeek 的得分僅約為 32%。

在公開基準測試中，情況有所不同。在 GPQA-Diamond 測試（博士級別的科學推理測試，以正確率評分）中，DeepSeek 的得分為 90%，僅比 Opus 4.6 的 91% 低 1 分。在數學奧林匹克基準測試（OTIS-AIME-2025、PUMaC 2024 和 SMT 2025）中，DeepSeek 的得分分別為 97%、96% 和 96%。在 SWE-Bench Verified 測試（針對 GitHub 上的真實 bug 修復，以解決率評分）中，DeepSeek 的得分為 74%，而 GPT-5.5 的得分為 81%。DeepSeek 自身的技術報告聲稱 V4 Pro 的性能與 Opus 4.6 和 GPT-5.4 相當。

為進行成本比較，CAISI 篩除了所有性能明顯低於 DeepSeek 或單代幣成本明顯高於 DeepSeek 的美國模型。最終僅有一款模型符合標準：GPT-5.4 mini。這幾乎囊括了美國所有最前沿的演算法，最終僅剩這一個。

DeepSeek 在 7 項基準測試中的 5 項中都表現得更便宜，甚至擊敗了 OpenAI 最小、功能最弱的 AI 模型。

反對觀點：差距是更大還是更小？

批評 CAISI 的方法論並不能完全證明 DeepSeek 的正確性。這位化名為 CAISI 的 AI 開發者 Ex0bit 對方直接反駁道：「根本不存在什麼『差距』，也沒有人落後 8 個月。每次美國閉門發售，我們都被嘲諷，而公開發售時，我們卻被人嘲笑。」

人工智能分析智能指數 v4.0（一個通過 10 次評估跟蹤前沿模型智能的評級系統）顯示，截至 2026 年 5 月，OpenAI 的得分接近 60 分，而 DeepSeek 的得分在 50 分左右，與一年前相比差距縮小了很多。

根據標準化的基準，他們的方法表明，差距實際上正在縮小。

DeepSeek 初次出現時2025 年 1 月，問題是中國是否已經趕上。美國各實驗室緊急做出反應。史丹福大學的2026年人工智慧指數—4 月 13 日發布—報道稱，Claude Opus 4.6 與中國的 Dola-Seed-2.0 Preview 之間的 Arena 排名差距正在縮小，目前僅相差 2.7%。

CAISI 計劃在不久的將來發布更完整的 IRT 方法論說明。