El benchmark CUSP revela que los modelos de IA carecen de capacidad de pronóstico científico

iconKuCoinFlash
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Las plataformas de noticias de IA y cripto están rastreando un nuevo indicador llamado CUSP, desarrollado por Stanford, Oxford y el Allen Institute for AI. La prueba muestra que los mejores modelos, como GPT-5.4 y Claude Sonnet 4.5, tienen dificultades para predecir el progreso científico. La precisión es cercana al azar y las estimaciones de tiempo están desfasadas por meses. El conjunto de datos CUSP incluye 4.760 hitos y 17.429 tareas. Los nuevos listados de tokens a menudo dependen de modelos predictivos, pero este estudio plantea dudas sobre su fiabilidad.
ME AI消息,据动察Beating监测,斯坦福大学、牛津大学与艾伦人工智能研究所联合推出评估AI科学进展预测能力的时序基准CUSP。评测系统性测试了GPT-5.4、Claude Sonnet 4.5和DeepSeek R1等前沿大模型。结果显示,大模型在理解既有技术路径等机制推理上表现优异。但在预测新发现能否真正实现时,准确率接近随机猜测。此外,大模型对科学进展突破时间的预测也表现出系统性滞后。传统的AI评估极易出现信息泄露。模型可能只是背诵了训练数据中已经发表的科学成果。为测出真实的预测能力,CUSP引入了时序知识截止限制。研究团队整理了来自Nature和Science等期刊的多学科前沿进展。这套基准包含4,760个科学里程碑,衍生出17,429个具体评估任务。测试通过截止条件限制模型可用信息,并设置pre-cutoff联网搜索等对照实验,以区分知识缺口与预测缺口。评测结果表明,大模型在没有标准答案的科学探索中无法提供可靠指引。至少在科学进展预测上,现有模型还不能提供可靠的前瞻判断。在机制推理任务中,模型表现出色。例如从选项中识别合理研究方向时,GPT-5.4取得了81.9%的准确率。但面对可行性判定,即判断断言能否实现时,各模型精度仅在45%到52%之间。对于突破时间的预测,大模型普遍高估。GPT-5.4预测滞后14个月,Claude S4.5滞后17个月,GPT-4o则滞后达26个月。在此类任务中,LLaMA 3.3在时间误差上较小,为+4个月。在生成式解决方案设计中,即使GPT-5.4获得了5.04/10的最高分,生成的技术路线也无法与真实的科学路径对齐。这说明模型能写出像样方案,但很难命中后来真正发生的具体技术路径。对于高影响力的开创性突破,科学预测缺口更加显著。(来源:BlockBeats)
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.