El benchmark CUSP revela que los modelos de IA carecen de capacidad de pronóstico científico

ME AI消息，据动察Beating监测，斯坦福大学、牛津大学与艾伦人工智能研究所联合推出评估AI科学进展预测能力的时序基准CUSP。评测系统性测试了GPT-5.4、Claude Sonnet 4.5和DeepSeek R1等前沿大模型。结果显示，大模型在理解既有技术路径等机制推理上表现优异。但在预测新发现能否真正实现时，准确率接近随机猜测。此外，大模型对科学进展突破时间的预测也表现出系统性滞后。传统的AI评估极易出现信息泄露。模型可能只是背诵了训练数据中已经发表的科学成果。为测出真实的预测能力，CUSP引入了时序知识截止限制。研究团队整理了来自Nature和Science等期刊的多学科前沿进展。这套基准包含4,760个科学里程碑，衍生出17,429个具体评估任务。测试通过截止条件限制模型可用信息，并设置pre-cutoff联网搜索等对照实验，以区分知识缺口与预测缺口。评测结果表明，大模型在没有标准答案的科学探索中无法提供可靠指引。至少在科学进展预测上，现有模型还不能提供可靠的前瞻判断。在机制推理任务中，模型表现出色。例如从选项中识别合理研究方向时，GPT-5.4取得了81.9%的准确率。但面对可行性判定，即判断断言能否实现时，各模型精度仅在45%到52%之间。对于突破时间的预测，大模型普遍高估。GPT-5.4预测滞后14个月，Claude S4.5滞后17个月，GPT-4o则滞后达26个月。在此类任务中，LLaMA 3.3在时间误差上较小，为+4个月。在生成式解决方案设计中，即使GPT-5.4获得了5.04/10的最高分，生成的技术路线也无法与真实的科学路径对齐。这说明模型能写出像样方案，但很难命中后来真正发生的具体技术路径。对于高影响力的开创性突破，科学预测缺口更加显著。（来源：BlockBeats）