CUSP 基準顯示 AI 模型缺乏科學預測能力

ME AI 消息，根據動察 Beating 監測，史丹福大學、牛津大學與艾倫人工智慧研究所聯合推出評估 AI 科學進展預測能力的時序基準 CUSP。評測系統性測試了 GPT-5.4、Claude Sonnet 4.5 和 DeepSeek R1 等前沿大模型。結果顯示，大模型在理解既有技術路徑等機制推理上表現優異。但在預測新發現能否真正實現時，準確率接近隨機猜測。此外，大模型對科學進展突破時間的預測也表現出系統性滯後。傳統的 AI 評估極易出現資訊洩露。模型可能只是背誦了訓練資料中已經發表的科學成果。為測出真實的預測能力，CUSP 引入了時序知識截止限制。研究團隊整理了來自 Nature 和 Science 等期刊的多學科前沿進展。這套基準包含 4,760 個科學里程碑，衍生出 17,429 個具體評估任務。測試通過截止條件限制模型可用資訊，並設置 pre-cutoff 聯網搜尋等對照實驗，以區分知識缺口與預測缺口。評測結果表明，大模型在沒有標準答案的科學探索中無法提供可靠指引。至少在科學進展預測上，現有模型還不能提供可靠的前瞻判斷。在機制推理任務中，模型表現出色。例如從選項中識別合理研究方向時，GPT-5.4 取得了 81.9% 的準確率。但面對可行性判定，即判斷斷言能否實現時，各模型精度僅在 45% 到 52% 之間。對於突破時間的預測，大模型普遍高估。GPT-5.4 預測滯後 14 個月，Claude S4.5 滯後 17 個月，GPT-4o 則滯後達 26 個月。在此類任務中，LLaMA 3.3 在時間誤差上較小，為 +4 個月。在生成式解決方案設計中，即使 GPT-5.4 獲得了 5.04/10 的最高分，生成的技術路線也無法與真實的科學路徑對齊。這說明模型能寫出像樣方案，但很難命中後來真正發生的具體技術路徑。對於高影響力的開創性突破，科學預測缺口更加顯著。（來源：BlockBeats）