CUSP Benchmark показал, что ИИ-модели не обладают способностью к научному прогнозированию

ME AI Сообщение: согласно мониторингу Beating, Стэнфордский университет, Оксфордский университет и Институт искусственного интеллекта Алана совместно запустили временной эталон CUSP для оценки способности ИИ предсказывать научный прогресс. Система тестирования систематически оценила передовые крупные модели, такие как GPT-5.4, Claude Sonnet 4.5 и DeepSeek R1. Результаты показали, что крупные модели отлично справляются с механизмами рассуждений, такими как понимание существующих технологических путей. Однако при прогнозировании, смогут ли новые открытия действительно быть реализованы, точность приближается к случаю. Кроме того, крупные модели систематически запаздывают в прогнозировании времени научных прорывов. Традиционные оценки ИИ легко подвержены утечке информации: модели могут просто повторять научные достижения, уже опубликованные в обучающих данных. Чтобы измерить реальную прогностическую способность, CUSP ввел временные ограничения на знания. Исследовательская группа собрала междисциплинарные передовые достижения из журналов Nature и Science. Этот эталон включает 4 760 научных вех и порождает 17 429 конкретных задач оценки. Тесты ограничивают доступную модель информацию с помощью условий временного cutoff и включают контрольные эксперименты, такие как пред-cutoff веб-поиск, чтобы различать пробелы в знаниях и пробелы в прогнозировании. Результаты показывают, что крупные модели не могут предоставить надежные ориентиры в научных исследованиях без стандартных ответов. По крайней мере, в прогнозировании научного прогресса существующие модели не способны давать надежные перспективные суждения. В задачах механизмов рассуждений модели демонстрируют отличные результаты: например, GPT-5.4 достиг 81,9% точности при выборе разумных направлений исследований из вариантов. Однако при оценке осуществимости — то есть определении, может ли утверждение быть реализовано — точность всех моделей колеблется только между 45% и 52%. При прогнозировании времени прорыва крупные модели в целом завышают сроки: GPT-5.4 запаздывает на 14 месяцев, Claude S4.5 — на 17 месяцев, а GPT-4o — на целых 26 месяцев. В таких задачах LLaMA 3.3 показал наименьшую ошибку по времени: +4 месяца. В генеративном проектировании решений, даже GPT-5.4, получивший наивысший балл 5,04/10, не смог сгенерировать технический путь, соответствующий реальным научным маршрутам. Это указывает на то, что модели могут писать приемлемые схемы, но с трудом попадают в конкретные технические пути, которые впоследствии действительно реализуются. Для высокоэффективных революционных прорывов научный пробел в прогнозировании еще более заметен. (Источник: BlockBeats)