美國政府報告稱中國頂級AI模型落後8個月

icon币界网
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
美國國家標準與技術研究院(NIST)下屬的AI標準與創新中心(CAISI)發布的一份政府報告稱,中國頂級AI模型DeepSeek V4 Pro落後全球領先模型約八個月。該報告採用項目反應理論,評估了九項基準測試的表現。DeepSeek V4 Pro得分約為800,接近GPT-5.4 mini,但低於GPT-5.5和Claude Opus 4.6。批評者指出,該方法論存在缺陷,且差距被誇大。部分基準測試仍為機密,導致驗證困難。同時,CFT法規持續影響全球流動性與加密貨幣市場。
幣界網報導:

美國一家政府機構發布了對中國最強大人工智慧的評估結果:落後八個月,且隨著時間推移,差距越來越大。網際網路用戶閱讀了該評估方法後,開始提出各種疑問。

CAISI——人工智能標準與創新中心,是美國國家標準與技術研究院 (NIST) 下屬的一個部門——發布評估報告。DeepSeek V4 Pro 於 5 月 1 日發布。結論是:DeepSeek 的開源旗艦產品「落後於前沿技術約 8 個月」。

CAISI 也稱其為迄今為止評估過最強大的中國人工智慧模型。

評分系統

CAISI 不像大多數評估機構那樣對基準分數進行平均。相反,它應用項目反應理論(一種來自標準化測試的統計方法)來估計每個模型的潛在能力,方法是追蹤每個模型在五個領域(網路安全、軟體工程、自然科學、抽象推理和數學)的九個基準測試中解決了哪些問題,沒有解決哪些問題。

根據 IRT 評估的 Elo 分數,GPT-5.5 為 1260 分,Anthropic 的 Claude Opus 4.6 為 999 分。DeepSeek V4 Pro 的分數約為 800 分(±28),與 GPT-5.4 mini 的 749 分非常接近。在 CAISI 的評分系統中,DeepSeek 更接近上一代 GPT mini,而非 Opus。

基準測試中的評分系統模擬了標準化考試給學生評分的方式——並非直接按正確率評分,而是根據學生答對和答錯題目的權重進行評分,從而得出分數估計值。該分數估計值只有在與其他模型進行同一評估時才具有相對意義。一般來說,分數越高,模型越好,最佳模型的分數將成為衡量模型能力的參考點。

由於九項基準測試中有兩項未公開,且差距在這兩項測試中最為顯著,因此無法複現 CAISI 的結果。例如,GPT-5.5 在 CAISI 的網路安全測試之一 CTF-Archive-Diamond 上的得分為 71%,而 DeepSeek 的得分僅約為 32%。

在公開基準測試中,情況有所不同。在 GPQA-Diamond 測試(博士級別的科學推理測試,以正確率評分)中,DeepSeek 的得分為 90%,僅比 Opus 4.6 的 91% 低 1 分。在數學奧林匹克基準測試(OTIS-AIME-2025、PUMaC 2024 和 SMT 2025)中,DeepSeek 的得分分別為 97%、96% 和 96%。在 SWE-Bench Verified 測試(針對 GitHub 上的真實 bug 修復,以解決率評分)中,DeepSeek 的得分為 74%,而 GPT-5.5 的得分為 81%。DeepSeek 自身的技術報告聲稱 V4 Pro 的性能與 Opus 4.6 和 GPT-5.4 相當。

為進行成本比較,CAISI 篩除了所有性能明顯低於 DeepSeek 或單代幣成本明顯高於 DeepSeek 的美國模型。最終僅有一款模型符合標準:GPT-5.4 mini。這幾乎囊括了美國所有最前沿的演算法,最終僅剩這一個。

DeepSeek 在 7 項基準測試中的 5 項中都表現得更便宜,甚至擊敗了 OpenAI 最小、功能最弱的 AI 模型。

反對觀點:差距是更大還是更小?

批評 CAISI 的方法論並不能完全證明 DeepSeek 的正確性。這位化名為 CAISI 的 AI 開發者 Ex0bit 對方直接反駁道:「根本不存在什麼『差距』,也沒有人落後 8 個月。每次美國閉門發售,我們都被嘲諷,而公開發售時,我們卻被人嘲笑。」

人工智能分析智能指數 v4.0(一個通過 10 次評估跟蹤前沿模型智能的評級系統)顯示,截至 2026 年 5 月,OpenAI 的得分接近 60 分,而 DeepSeek 的得分在 50 分左右,與一年前相比差距縮小了很多。

根據標準化的基準,他們的方法表明,差距實際上正在縮小。


DeepSeek 初次出現時2025 年 1 月,問題是中國是否已經趕上。美國各實驗室緊急做出反應。史丹福大學的2026年人工智慧指數—4 月 13 日發布—報道稱,Claude Opus 4.6 與中國的 Dola-Seed-2.0 Preview 之間的 Arena 排名差距正在縮小,目前僅相差 2.7%。

CAISI 計劃在不久的將來發布更完整的 IRT 方法論說明。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露