這是一個讓研究人員夜不能寐的問題:AI 真的能做數學,還是只是對它曾見過的問題進行模式匹配?一組來自哈佛的 30 位數學家決定以一種艱難的方式找出答案:給頂尖的 AI 系統一項它們不可能提前準備過的測試。
該項目名為「首輪驗證,第二批次」,於2026年6月初在哈佛大學數學科學與應用中心組建了專家評審團。他們的任務簡單但規模前所未見:盲評由AI生成的10道原創、未發表的數學研究級問題解答。結果於6月10日公布,呈現出一幅既非支持者所恐懼的末日情景,也非支持者所期盼的勝利圖景。
設定:為何未公開的問題至關重要
整個練習取決於一個關鍵的設計選擇。該集合中的所有問題均來自正在進行且未公開的研究,這些問題從未出現在教科書、arXiv 或任何 AI 訓練數據可能抓取的其他地方。
該項目的數學家們同樣非同小可,團隊包括來自史丹佛大學的穆罕默德·阿布祖德、來自加州大學柏克萊分校的尼赫爾·斯里瓦斯塔瓦、來自德州大學奧斯汀分校的蕾秋·沃德,以及來自哈佛大學的勞倫·威廉斯。
AI 真正正確和錯誤的地方
四個頂尖的人工智慧系統參與了評估,包括來自 OpenAI 和 Google 的模型。關鍵數據:專家小組對四個測試系統中的 10 個問題給予了 7 個及格評分。
在初步和早期試運行中,AI 系統據報僅解決了 10 個問題中的 2 個。早期表現與最終結果之間的差距表明,這些模型可能從多次嘗試或不同的提示策略中獲益,儘管盲評協議旨在僅根據提交解決方案的品質進行評估。
基於先前的結果
這第二批次建立在2026年2月進行的初步評估基礎上。First Proof 專案從一開始就設計為一個持續的評估框架,而非一次性作秀。透過每次引入新問題並進行多輪評估,組織者可以追蹤AI在研究級數學能力上是否真正取得進步,還是僅在初期基準測試獲益後便趨於平緩。
標準的數學基準,即使是像競賽級難題這樣的困難問題,也越來越被前沿模型攻克。但競賽問題,根據定義,都有已知的解答和已知的解題方法。研究級數學則處於一個根本不同的領域,在那裡,你往往連解答是否存在都不知道,更不用說哪些技術能幫助你找到解答了。
