Математики Гарварда протестировали ИИ на непубликованных исследованиях уровня университета

Вот вопрос, который заставляет исследователей не спать по ночам: может ли ИИ действительно решать математические задачи или он просто отлично справляется с распознаванием шаблонов на основе уже известных ему задач? Группа из 30 математиков из Гарварда решила выяснить это на практике, предложив ведущим ИИ-системам тест, для которого они не могли подготовиться.

Проект под названием «First Proof, Second Batch» собрал свою экспертную панель в Центре математических наук и приложений Гарварда в начале июня 2026 года. Их задача была простой, но беспрецедентной по масштабу: слепо оценить решения, сгенерированные ИИ, для 10 оригинальных, непубликовавшихся задач уровня исследований в математике. Результаты, опубликованные 10 июня, рисуют картину, которая не является ни сценарием катастрофы, ни триумфом, которых могли бы желать сторонники с обеих сторон.

Настройка: почему непубликованные проблемы имеют значение

Весь процесс зависит от одного ключевого дизайнерского решения. Все задачи в наборе были взяты из активных, неопубликованных исследований. Ни один из этих вопросов не появлялся в учебниках, на arXiv или в любом другом месте, откуда данные для обучения ИИ могли бы быть извлечены.

Математики, стоящие за проектом, тоже не из легких. В их числе Мухаммад Абузайд из Стэнфорда, Нихил Сривастава из Калифорнийского университета в Беркли, Рэчел Уорд из Техасского университета в Остине и Лорен Уильямс из Гарварда.

Что ИИ действительно правильно понял, а что — ошибся

В оценке участвовали четыре ведущие ИИ-системы, включая модели от OpenAI и Google. Основной показатель: экспертная панель присвоила положительные оценки семи из десяти задач по всем четырем протестированным системам.

На предварительных и ранних пробных запусках ИИ-системы, как сообщается, решили только 2 из 10 задач. Разница между начальной производительностью и итоговыми результатами указывает на то, что модели могли получить выгоду от нескольких попыток или различных стратегий формулирования запросов, хотя протокол слепой оценки был разработан для оценки качества представленных решений исключительно по их собственным заслугам.

Основываясь на предыдущих результатах

Эта вторая партия основывается на первоначальном цикле оценок, проведённом в феврале 2026 года. Проект First Proof изначально был разработан как непрерывная система оценки, а не как одноразовое мероприятие. Проводя несколько циклов с новыми задачами каждый раз, организаторы могут отслеживать, действительно ли возможности ИИ улучшаются на уровне научных исследований по математике или просто достигли плато после первоначального роста результатов на бенчмарках.

Стандартные математические тесты, даже сложные, такие как задачи олимпиадного уровня, всё чаще решаются передовыми моделями. Однако задачи соревновательного уровня, по определению, имеют известные решения и известные методы их решения. Математика исследовательского уровня функционирует в принципиально иной сфере, где зачастую неизвестно даже, существует ли решение, не говоря уже о том, какие методы могут привести к нему.