哈佛數學家測試人工智能於未發表的研究級問題

這是一個讓研究人員夜不能寐的問題：AI 真的能做數學，還是只是對它曾見過的問題進行模式匹配？一組來自哈佛的 30 位數學家決定以一種艱難的方式找出答案：給頂尖的 AI 系統一項它們不可能提前準備過的測試。

該項目名為「首輪驗證，第二批次」，於2026年6月初在哈佛大學數學科學與應用中心組建了專家評審團。他們的任務簡單但規模前所未見：盲評由AI生成的10道原創、未發表的數學研究級問題解答。結果於6月10日公布，呈現出一幅既非支持者所恐懼的末日情景，也非支持者所期盼的勝利圖景。

設定：為何未公開的問題至關重要

整個練習取決於一個關鍵的設計選擇。該集合中的所有問題均來自正在進行且未公開的研究，這些問題從未出現在教科書、arXiv 或任何 AI 訓練數據可能抓取的其他地方。

該項目的數學家們同樣非同小可，團隊包括來自史丹佛大學的穆罕默德·阿布祖德、來自加州大學柏克萊分校的尼赫爾·斯里瓦斯塔瓦、來自德州大學奧斯汀分校的蕾秋·沃德，以及來自哈佛大學的勞倫·威廉斯。

四個頂尖的人工智慧系統參與了評估，包括來自 OpenAI 和 Google 的模型。關鍵數據：專家小組對四個測試系統中的 10 個問題給予了 7 個及格評分。

在初步和早期試運行中，AI 系統據報僅解決了 10 個問題中的 2 個。早期表現與最終結果之間的差距表明，這些模型可能從多次嘗試或不同的提示策略中獲益，儘管盲評協議旨在僅根據提交解決方案的品質進行評估。

這第二批次建立在2026年2月進行的初步評估基礎上。First Proof 專案從一開始就設計為一個持續的評估框架，而非一次性作秀。透過每次引入新問題並進行多輪評估，組織者可以追蹤AI在研究級數學能力上是否真正取得進步，還是僅在初期基準測試獲益後便趨於平緩。

標準的數學基準，即使是像競賽級難題這樣的困難問題，也越來越被前沿模型攻克。但競賽問題，根據定義，都有已知的解答和已知的解題方法。研究級數學則處於一個根本不同的領域，在那裡，你往往連解答是否存在都不知道，更不用說哪些技術能幫助你找到解答了。