CUSP Benchmark показал, что ИИ-модели не обладают способностью к научному прогнозированию
KuCoinFlash
Поделиться
Сводка
Платформы новостей об ИИ и криптовалютах отслеживают новый стандарт под названием CUSP, разработанный Стэнфордским, Оксфордским университетами и Институтом ИИ Аллена. Тест показал, что передовые модели, такие как GPT-5.4 и Claude Sonnet 4.5, испытывают трудности с прогнозированием научного прогресса. Точность близка к случайной, а оценки сроков отклоняются на месяцы. Набор данных CUSP включает 4 760 вех и 17 429 задач. Новые листинги токенов часто основаны на прогнозных моделях, но это исследование вызывает опасения относительно их надежности.
ME AI Сообщение: согласно мониторингу Beating, Стэнфордский университет, Оксфордский университет и Институт искусственного интеллекта Алана совместно запустили временной эталон CUSP для оценки способности ИИ предсказывать научный прогресс. Система тестирования систематически оценила передовые крупные модели, такие как GPT-5.4, Claude Sonnet 4.5 и DeepSeek R1. Результаты показали, что крупные модели отлично справляются с механизмами рассуждений, такими как понимание существующих технологических путей. Однако при прогнозировании, смогут ли новые открытия действительно быть реализованы, точность приближается к случаю. Кроме того, крупные модели систематически запаздывают в прогнозировании времени научных прорывов. Традиционные оценки ИИ легко подвержены утечке информации: модели могут просто повторять научные достижения, уже опубликованные в обучающих данных. Чтобы измерить реальную прогностическую способность, CUSP ввел временные ограничения на знания. Исследовательская группа собрала междисциплинарные передовые достижения из журналов Nature и Science. Этот эталон включает 4 760 научных вех и порождает 17 429 конкретных задач оценки. Тесты ограничивают доступную модель информацию с помощью условий временного cutoff и включают контрольные эксперименты, такие как пред-cutoff веб-поиск, чтобы различать пробелы в знаниях и пробелы в прогнозировании. Результаты показывают, что крупные модели не могут предоставить надежные ориентиры в научных исследованиях без стандартных ответов. По крайней мере, в прогнозировании научного прогресса существующие модели не способны давать надежные перспективные суждения. В задачах механизмов рассуждений модели демонстрируют отличные результаты: например, GPT-5.4 достиг 81,9% точности при выборе разумных направлений исследований из вариантов. Однако при оценке осуществимости — то есть определении, может ли утверждение быть реализовано — точность всех моделей колеблется только между 45% и 52%. При прогнозировании времени прорыва крупные модели в целом завышают сроки: GPT-5.4 запаздывает на 14 месяцев, Claude S4.5 — на 17 месяцев, а GPT-4o — на целых 26 месяцев. В таких задачах LLaMA 3.3 показал наименьшую ошибку по времени: +4 месяца. В генеративном проектировании решений, даже GPT-5.4, получивший наивысший балл 5,04/10, не смог сгенерировать технический путь, соответствующий реальным научным маршрутам. Это указывает на то, что модели могут писать приемлемые схемы, но с трудом попадают в конкретные технические пути, которые впоследствии действительно реализуются. Для высокоэффективных революционных прорывов научный пробел в прогнозировании еще более заметен. (Источник: BlockBeats)
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.