CUSPベンチマークが、AIモデルに科学的予測能力が欠けていることを明らかに
KuCoinFlashAIと暗号通貨ニュースプラットフォームは、スタンフォード大学、オックスフォード大学、エレンAI研究所が開発した新しいベンチマーク「CUSP」を追跡しています。このテストでは、GPT-5.4やClaude Sonnet 4.5などのトップモデルが科学的進歩を予測するのに苦戦していることが示されています。正確性はランダムに近いレベルであり、時期の推定は数ヶ月ずれています。CUSPデータセットには4,760のマイルストーンと17,429のタスクが含まれています。新しいトークンの上場はしばしば予測モデルに依存していますが、この研究はその信頼性について懸念を提起しています。
ME AI ニュース:動察 Beating の監視によると、スタンフォード大学、オックスフォード大学、アレン人工知能研究所が共同で、AIの科学進歩予測能力を評価する時系列ベンチマーク「CUSP」を発表しました。この評価システムは、GPT-5.4、Claude Sonnet 4.5、DeepSeek R1 などの最先端大規模モデルを体系的にテストしました。結果によると、大規模モデルは既存の技術的経路の理解などのメカニズム推論において優れた性能を示しましたが、新たな発見が実際に実現可能かどうかを予測する際の正確性はランダムな推測に近いレベルでした。また、科学的進歩のブレークスルー時期の予測においても、システム的な遅れが見られました。従来のAI評価では情報リークが容易に発生するため、モデルは訓練データに含まれる既に公開された科学成果を単に暗記している可能性があります。真の予測能力を測定するため、CUSPは時系列の知識切断制限を導入しました。研究チームは、NatureやScienceなどのジャーナルから収集した多分野の最先端進歩を整理し、このベンチマークには4,760の科学的マイルストーンが含まれ、17,429の具体的な評価タスクが派生しています。テストでは、切断条件によりモデルが利用できる情報を制限し、pre-cutoffでのネット検索などの対照実験を設定することで、知識のギャップと予測のギャップを区別しています。評価結果は、大規模モデルが正解のない科学的探求において信頼できる指針を提供できないことを示しています。少なくとも科学的進歩の予測においては、現在のモデルは信頼できる先見的な判断を提供できません。メカニズム推論タスクではモデルは優れた性能を示しました。たとえば、合理的な研究方向を選択肢から識別する際、GPT-5.4は81.9%の正確性を達成しました。しかし、主張が実現可能かどうかという可能性判定では、すべてのモデルの精度は45%から52%の範囲にとどまりました。ブレークスルー時期の予測では、大規模モデルは全体的に過大評価していました。GPT-5.4は14ヶ月遅れ、Claude S4.5は17ヶ月遅れ、GPT-4oは最大26ヶ月遅れました。このようなタスクでは、LLaMA 3.3が時間誤差が最小で+4ヶ月でした。生成的ソリューション設計においては、GPT-5.4が10点満点中5.04点と最高得点を獲得しましたが、生成された技術的経路は実際の科学的経路と一致しませんでした。これはモデルが見かけ上妥当な方案を書き出すことはできますが、後に実際に実現された具体的な技術的経路を正確に特定するのは難しいことを示しています。高インパクトの革新的ブレークスルーにおいては、科学的予測のギャップがさらに顕著です。(出典:BlockBeats)免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。