ハーバード大学の数学者たちが、未発表の研究レベルの問題でAIをテスト

研究者が夜も眠れないほど悩まされる質問があります：AIは本当に数学ができるのか、それともこれまでに見た問題に対するパターン認識が非常に優れているだけなのか？ハーバード大学の30人の数学者が、AIが決して学習することができないテストを提示することで、この疑問に真剣に取り組みました。

2026年6月初旬、プロジェクト「First Proof, Second Batch」はハーバード大学数学科学および応用センターに専門家パネルを結成した。彼らの任務は明確だが、規模において前例のないものだった：AIが生成した10のオリジナルで未発表の研究レベルの数学問題の解答をブラインドで採点すること。6月10日に公開された結果は、両陣営が好むいずれのシナリオ——悲観的でも、勝利的でも——でもない姿を描いている。

設定：未公開の問題が重要な理由

この全体の演習は、一つの重要な設計選択にかかっている。このセット内のすべての問題は、活動的で未発表の研究から抽出されたものである。これらの質問は、教科書やarXiv、あるいはAIのトレーニングデータが収集可能な他のどの場所にも登場したことはない。

このプロジェクトの背後にある数学者たちも決して軽視できる存在ではありません。スタンフォード大学のモハメド・アブウザイド、カリフォルニア大学バークレー校のニヒル・スリヴァスタヴァ、テキサス大学オースティン校のレイチェル・ワード、ハーバード大学のローレン・ウィリアムズが名を連ねています。

AIが正しく予測した点と間違えた点

評価には、OpenAIおよびGoogleのモデルを含む4つの主要なAIシステムが参加しました。主要な結果として、専門家パネルは、テストされた4つのシステム全体で10の問題のうち7つに合格評価を授与しました。

初期の試験段階では、AIシステムが10問中2問しか解けなかったと報告されています。初期のパフォーマンスと最終結果の差は、モデルが複数回の試行や異なるプロンプティング戦略の恩恵を受けた可能性を示唆していますが、ブラインド採点プロトコルは提出された解答の質をその内容のみで評価することを目的としています。

以前の結果を基に構築

この第2弾は、2026年2月に実施された初期の評価ラウンドを基に構築されています。First Proofプロジェクトは、一回限りのイベントではなく、継続的な評価フレームワークとして当初から設計されました。毎回新しい課題を用いて複数のラウンドを実施することで、主催者はAIの能力が研究レベルの数学において真に向上しているのか、それともベンチマークの初期の成果後に頭打ちになっているのかを追跡できます。

標準的な数学のベンチマーク、競技レベルの問題のような難しいものでさえ、最先端モデルによって次第に解決されてきている。しかし、競技問題は定義上、既知の解と既知の解法が存在する。一方、研究レベルの数学は根本的に異なる状況にあり、解が存在するのかどうかすら分からないことが多く、ましてやどのような手法で到達できるのかは不明である。