CUSP 基準顯示 AI 模型缺乏科學預測能力

iconKuCoinFlash
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
AI 與加密貨幣新聞平台正在追蹤由史丹福大學、牛津大學和艾倫人工智慧研究所開發的一項新基準 CUSP。測試顯示,GPT-5.4 和 Claude Sonnet 4.5 等頂級模型在預測科學進展方面表現不佳,準確率接近隨機,時間預估誤差達數月之久。CUSP 數據集包含 4,760 個里程碑和 17,429 個任務。新代幣上線通常依賴預測模型,但此研究對其可靠性提出了疑慮。
ME AI 消息,根據動察 Beating 監測,史丹福大學、牛津大學與艾倫人工智慧研究所聯合推出評估 AI 科學進展預測能力的時序基準 CUSP。評測系統性測試了 GPT-5.4、Claude Sonnet 4.5 和 DeepSeek R1 等前沿大模型。結果顯示,大模型在理解既有技術路徑等機制推理上表現優異。但在預測新發現能否真正實現時,準確率接近隨機猜測。此外,大模型對科學進展突破時間的預測也表現出系統性滯後。傳統的 AI 評估極易出現資訊洩露。模型可能只是背誦了訓練資料中已經發表的科學成果。為測出真實的預測能力,CUSP 引入了時序知識截止限制。研究團隊整理了來自 Nature 和 Science 等期刊的多學科前沿進展。這套基準包含 4,760 個科學里程碑,衍生出 17,429 個具體評估任務。測試通過截止條件限制模型可用資訊,並設置 pre-cutoff 聯網搜尋等對照實驗,以區分知識缺口與預測缺口。評測結果表明,大模型在沒有標準答案的科學探索中無法提供可靠指引。至少在科學進展預測上,現有模型還不能提供可靠的前瞻判斷。在機制推理任務中,模型表現出色。例如從選項中識別合理研究方向時,GPT-5.4 取得了 81.9% 的準確率。但面對可行性判定,即判斷斷言能否實現時,各模型精度僅在 45% 到 52% 之間。對於突破時間的預測,大模型普遍高估。GPT-5.4 預測滯後 14 個月,Claude S4.5 滯後 17 個月,GPT-4o 則滯後達 26 個月。在此類任務中,LLaMA 3.3 在時間誤差上較小,為 +4 個月。在生成式解決方案設計中,即使 GPT-5.4 獲得了 5.04/10 的最高分,生成的技術路線也無法與真實的科學路徑對齊。這說明模型能寫出像樣方案,但很難命中後來真正發生的具體技術路徑。對於高影響力的開創性突破,科學預測缺口更加顯著。(來源:BlockBeats)
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露