CUSPベンチマークが、AIモデルに科学的予測能力が欠けていることを明らかに

ME AI ニュース：動察 Beating の監視によると、スタンフォード大学、オックスフォード大学、アレン人工知能研究所が共同で、AIの科学進歩予測能力を評価する時系列ベンチマーク「CUSP」を発表しました。この評価システムは、GPT-5.4、Claude Sonnet 4.5、DeepSeek R1 などの最先端大規模モデルを体系的にテストしました。結果によると、大規模モデルは既存の技術的経路の理解などのメカニズム推論において優れた性能を示しましたが、新たな発見が実際に実現可能かどうかを予測する際の正確性はランダムな推測に近いレベルでした。また、科学的進歩のブレークスルー時期の予測においても、システム的な遅れが見られました。従来のAI評価では情報リークが容易に発生するため、モデルは訓練データに含まれる既に公開された科学成果を単に暗記している可能性があります。真の予測能力を測定するため、CUSPは時系列の知識切断制限を導入しました。研究チームは、NatureやScienceなどのジャーナルから収集した多分野の最先端進歩を整理し、このベンチマークには4,760の科学的マイルストーンが含まれ、17,429の具体的な評価タスクが派生しています。テストでは、切断条件によりモデルが利用できる情報を制限し、pre-cutoffでのネット検索などの対照実験を設定することで、知識のギャップと予測のギャップを区別しています。評価結果は、大規模モデルが正解のない科学的探求において信頼できる指針を提供できないことを示しています。少なくとも科学的進歩の予測においては、現在のモデルは信頼できる先見的な判断を提供できません。メカニズム推論タスクではモデルは優れた性能を示しました。たとえば、合理的な研究方向を選択肢から識別する際、GPT-5.4は81.9%の正確性を達成しました。しかし、主張が実現可能かどうかという可能性判定では、すべてのモデルの精度は45%から52%の範囲にとどまりました。ブレークスルー時期の予測では、大規模モデルは全体的に過大評価していました。GPT-5.4は14ヶ月遅れ、Claude S4.5は17ヶ月遅れ、GPT-4oは最大26ヶ月遅れました。このようなタスクでは、LLaMA 3.3が時間誤差が最小で+4ヶ月でした。生成的ソリューション設計においては、GPT-5.4が10点満点中5.04点と最高得点を獲得しましたが、生成された技術的経路は実際の科学的経路と一致しませんでした。これはモデルが見かけ上妥当な方案を書き出すことはできますが、後に実際に実現された具体的な技術的経路を正確に特定するのは難しいことを示しています。高インパクトの革新的ブレークスルーにおいては、科学的予測のギャップがさらに顕著です。（出典：BlockBeats）