哈佛數學家測試人工智能於未發表的研究級問題

iconCryptoBriefing
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
哈佛的 AI 與加密貨幣新聞顯示,AI 系統解決了 10 個原始數學問題中的 7 個。該測試於 2026 年 6 月 10 日發布,使用的問題不在訓練資料中。OpenAI 和 Google 的模型相比早期試驗有所提升。鏈上新聞與 AI 進展持續吸引關注,但進步的確切原因仍不明確。

這是一個讓研究人員夜不能寐的問題:AI 真的能做數學,還是只是對它曾見過的問題進行模式匹配?一組來自哈佛的 30 位數學家決定以一種艱難的方式找出答案:給頂尖的 AI 系統一項它們不可能提前準備過的測試。

該項目名為「首輪驗證,第二批次」,於2026年6月初在哈佛大學數學科學與應用中心組建了專家評審團。他們的任務簡單但規模前所未見:盲評由AI生成的10道原創、未發表的數學研究級問題解答。結果於6月10日公布,呈現出一幅既非支持者所恐懼的末日情景,也非支持者所期盼的勝利圖景。

設定:為何未公開的問題至關重要

整個練習取決於一個關鍵的設計選擇。該集合中的所有問題均來自正在進行且未公開的研究,這些問題從未出現在教科書、arXiv 或任何 AI 訓練數據可能抓取的其他地方。

廣告

該項目的數學家們同樣非同小可,團隊包括來自史丹佛大學的穆罕默德·阿布祖德、來自加州大學柏克萊分校的尼赫爾·斯里瓦斯塔瓦、來自德州大學奧斯汀分校的蕾秋·沃德,以及來自哈佛大學的勞倫·威廉斯。

AI 真正正確和錯誤的地方

四個頂尖的人工智慧系統參與了評估,包括來自 OpenAI 和 Google 的模型。關鍵數據:專家小組對四個測試系統中的 10 個問題給予了 7 個及格評分。

在初步和早期試運行中,AI 系統據報僅解決了 10 個問題中的 2 個。早期表現與最終結果之間的差距表明,這些模型可能從多次嘗試或不同的提示策略中獲益,儘管盲評協議旨在僅根據提交解決方案的品質進行評估。

基於先前的結果

這第二批次建立在2026年2月進行的初步評估基礎上。First Proof 專案從一開始就設計為一個持續的評估框架,而非一次性作秀。透過每次引入新問題並進行多輪評估,組織者可以追蹤AI在研究級數學能力上是否真正取得進步,還是僅在初期基準測試獲益後便趨於平緩。

標準的數學基準,即使是像競賽級難題這樣的困難問題,也越來越被前沿模型攻克。但競賽問題,根據定義,都有已知的解答和已知的解題方法。研究級數學則處於一個根本不同的領域,在那裡,你往往連解答是否存在都不知道,更不用說哪些技術能幫助你找到解答了。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露