史丹佛 HAI 人類及人工智慧中心剛發布了 2026 年度 AI 指數報告,這是 AI 領域最權威的年度體檢單。過去一年,史丹佛研究員們透過一系列觀察,得出的核心結論是:AI 正以超越 PC 和互聯網的速度被全球採納,但人類社會的制度、就業市場和衡量工具全面滯後。
AI 正在衝刺,人類還在找鞋。十張圖帶你看看,有哪些地方 AI 跑得比人快。
1
衡量 AI 的考試,本身就沒用

「AI 超越人類」這類標題都建立在 benchmark 的可信度上。但 Stanford 報告發現,被廣泛使用的數學基準測試 GSM8K 裡,有近 42% 的題目是無效的。其他測試也存在被「刷題」的嫌疑,模型在測試數據上訓練過之後,可以得高分,但不代表它變聰明了。很多公司拒絕公開相關的 benchmark 成績。報告的作者之一 Gil 說:「不公開成績本身可能就說明了一些事。」
2
中美差距實質消失,僅 2.7%

截至 2026 年 3 月,美國最強模型 Claude Opus 4.6 的 Elo 評分為 1503,中國最強模型緊隨其後,差距僅為 2.7%。過去一年中,兩國模型多次交替領先,2025 年 2 月 DeepSeek R1 曾一度追平美國最強模型。
不過兩國的 AI 優勢完全不同。美國擁有更強大的模型、更多的資本,並擁有 5427 個數據中心,是任何其他國家的 10 倍以上。中國則在 AI 論文、專利和機器人部署方面領先。簡單來說,美國贏在算力和資金,中國贏在研究和製造。
第 3 名
前沿模型趨同,智能程度不相上下

截至 2026 年 3 月,Anthropic(1503)、xAI(1495)、Google(1494)、OpenAI(1481)擠在極窄的區間內。這意味著「誰的模型更強」已經不是競爭的重點。競爭焦點正在轉向成本、可靠性和特定領域的優化——這也解釋了為什麼 Anthropic 在做 Advisor Tool(降低成本)、Google 在買 Wiz(雲安全)、OpenAI 在買各種應用層公司(擴大場景)。在模型自身智能表現逐漸趨同的情況下,需要在別處製造差異化。
4
22–25 歲開發者就業下降近 20%

生成式 AI 在三年內達到了超過 53% 的人口級採用率,88% 的組織已開始使用 AI。但就業影響並非均勻分布。Stanford 經濟學家 2025 年的研究發現,22-25 歲軟體開發者的就業人數自 2022 年以來下降了近 20%,而年長群體的就業人數仍在增長。McKinsey 2025 年的調查顯示,三分之一的組織預計未來一年將因 AI 減少員工,裁員主要集中在服務運營、供應鏈和軟體工程領域。
整體數據尚未顯示大規模失業,但這已足以體現出就業市場正處於溫水煮青蛙的狀態,危機正在緩慢滋生。
5
採納速度超過 PC 和互聯網,美國僅排第 24 名

生成式 AI 在三年內達到 53% 的人口級採用率,這一速度超過了個人電腦和互聯網。但最反直覺的數據點是:美國在 AI 投資和模型開發上領先全球,但人口採用率僅為 28.3%,全球排名第 24。阿聯酋 64%,新加坡 60.9%。花錢最多的國家,用得最少。
6
全球 AI 投資 $5817 億,美國是中國的 23 倍,但是……

2025 年全球 AI 企業投資總額達到 $5817 億,同比增長 129.9%。美國私人 AI 投資 $2859 億,是中國的 23 倍、英國的 48.5 倍。僅加利福尼亞一州就佔美國總額的 75% 以上。大額交易亦十分密集:OpenAI 融資 $400 億,估值 $3000 億;Anthropic 融資 $130 億,估值 $1830 億;Cursor 以 $293 億估值融資 $23 億。
不過這裡有一個隱藏資訊:在國內,國資基金在 2000 年到 2023 年間向 AI 企業注入了約 $1840 億,這筆錢沒有被計入私人投資統計。加上這部分的話,中美之間的資金差距可能比賬面數字小得多。
7
AI Agent:從能聊天到能做事,但仍有一成三的失敗率

2025 年是 AI Agent 元年。OSWorld(測試 AI 在操作系統上完成任務的能力)準確率從 12% 飆升至 66.3%,距離人類表現僅差 6 個百分點。WebArena 達到 74.3%,Cybench(網路安全任務)從 15% 飆升至 93%。
但整體來看,Agent 的失敗率仍約為 1/3。而且企業實際部署仍處於個位數——在大多數業務場景中,超過 2/3 的受訪者表示完全未使用 AI Agent。在基準測試的進步與實際部署之間,仍存在巨大差距。
8
89% 的機器人活在實驗室裡

AI 在虛擬世界中已經很強,但在物理世界中仍然很弱。在軟體模擬環境中,機器人操作的成功率達 89.4%,但在真實家庭任務中的成功率僅有 12.4%。一個是乾淨的實驗室,一個是雜亂的家,在後者這種真實環境中,機器人的參與仍微不足道。
不過,自動駕駛是例外:Waymo 每週約 45 萬次出行,Apollo Go 2025 年完成約 1100 萬次全無人出行。
9
專家 vs 公眾:73% vs 23% 的認知鴻溝

報告引用的 Pew 調查揭示了一個驚人的分裂:73% 的 AI 專家認為 AI 將對工作產生正面影響,但只有 23% 的美國公眾這麼認為——完全是兩極分化。
另一個有趣的數據:在所有受調查國家中,美國人對政府監管 AI 的信任度最低。專家同樣對 AI 在教育和醫療上的前景更樂觀,但雙方都認為 AI 會損害選舉和人際關係。
10
GPT-4o 一年用水量超過 1,200 萬人,耗電量足以支撐整個紐約州

AI 的進步,背後是環境在付出代價。全球 AI 數據中心現在可抽取 29.6GW 的電力,這個量級足以在用電高峰時期支撐整個紐約州。僅 OpenAI 的 GPT-4o 一個模型,年度用水量就可能超過 1200 萬人的飲用水需求。
這些龐大的消耗,不斷注入一個又一個的模型訓練中,但與此同時,模型背後的晶片供應鏈極度脆弱。美國擁有全球大多數 AI 數據中心,但幾乎每一顆前沿 AI 晶片都由台灣的台積電一家公司製造。所有的算力、所有的投資、所有的模型進步,都建立在這個物理基礎之上。
以上僅是報告的冰山一角,卻足以看出,我們正以歷史上最快速度,「擁抱」一項我們尚未完全理解的技術。
完整報告還涵蓋了更多關於 AI 安全、監管動態、科研趨勢等更多維度,強烈推薦感興趣的朋友閱讀原報告全文,指路👉🏻:https://hai.stanford.edu/ai-index
本文來自微信公眾號「APPSO」,作者:發現明日產品的 APPSO
