Математики Гарварда протестировали ИИ на непубликованных исследованиях уровня университета

iconCryptoBriefing
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Новости об ИИ и криптовалюте из Гарварда показывают, что системы ИИ решили семь из десяти исходных математических задач. Тест, опубликованный 10 июня 2026 года, использовал задачи, отсутствовавшие в обучающих данных. Модели от OpenAI и Google улучшились по сравнению с ранними пробами. Ончейн-новости и достижения в области ИИ продолжают привлекать внимание. Точные причины прогресса остаются неясными.

Вот вопрос, который заставляет исследователей не спать по ночам: может ли ИИ действительно решать математические задачи или он просто отлично справляется с распознаванием шаблонов на основе уже известных ему задач? Группа из 30 математиков из Гарварда решила выяснить это на практике, предложив ведущим ИИ-системам тест, для которого они не могли подготовиться.

Проект под названием «First Proof, Second Batch» собрал свою экспертную панель в Центре математических наук и приложений Гарварда в начале июня 2026 года. Их задача была простой, но беспрецедентной по масштабу: слепо оценить решения, сгенерированные ИИ, для 10 оригинальных, непубликовавшихся задач уровня исследований в математике. Результаты, опубликованные 10 июня, рисуют картину, которая не является ни сценарием катастрофы, ни триумфом, которых могли бы желать сторонники с обеих сторон.

Настройка: почему непубликованные проблемы имеют значение

Весь процесс зависит от одного ключевого дизайнерского решения. Все задачи в наборе были взяты из активных, неопубликованных исследований. Ни один из этих вопросов не появлялся в учебниках, на arXiv или в любом другом месте, откуда данные для обучения ИИ могли бы быть извлечены.

Реклама

Математики, стоящие за проектом, тоже не из легких. В их числе Мухаммад Абузайд из Стэнфорда, Нихил Сривастава из Калифорнийского университета в Беркли, Рэчел Уорд из Техасского университета в Остине и Лорен Уильямс из Гарварда.

Что ИИ действительно правильно понял, а что — ошибся

В оценке участвовали четыре ведущие ИИ-системы, включая модели от OpenAI и Google. Основной показатель: экспертная панель присвоила положительные оценки семи из десяти задач по всем четырем протестированным системам.

На предварительных и ранних пробных запусках ИИ-системы, как сообщается, решили только 2 из 10 задач. Разница между начальной производительностью и итоговыми результатами указывает на то, что модели могли получить выгоду от нескольких попыток или различных стратегий формулирования запросов, хотя протокол слепой оценки был разработан для оценки качества представленных решений исключительно по их собственным заслугам.

Основываясь на предыдущих результатах

Эта вторая партия основывается на первоначальном цикле оценок, проведённом в феврале 2026 года. Проект First Proof изначально был разработан как непрерывная система оценки, а не как одноразовое мероприятие. Проводя несколько циклов с новыми задачами каждый раз, организаторы могут отслеживать, действительно ли возможности ИИ улучшаются на уровне научных исследований по математике или просто достигли плато после первоначального роста результатов на бенчмарках.

Стандартные математические тесты, даже сложные, такие как задачи олимпиадного уровня, всё чаще решаются передовыми моделями. Однако задачи соревновательного уровня, по определению, имеют известные решения и известные методы их решения. Математика исследовательского уровня функционирует в принципиально иной сфере, где зачастую неизвестно даже, существует ли решение, не говоря уже о том, какие методы могут привести к нему.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.