Meituan открывает исходный код модели для доказательства теорем с 560 миллиардами параметров и показателем прохождения 97,1% за 72 шага рассуждения

iconChainthink
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Команда LongCat от Meituan открыла исходный код LongCat-Flash-Prover — модель MoE с 560 миллиардами параметров для доказательства теорем в Lean4. Модель, доступная на GitHub, Hugging Face и ModelScope по лицензии MIT, достигает 97,1% проходимости на MiniF2F-Test за 72 шага. Ценность инвестиций в криптовалюту продолжает выгодно использовать анализ открытого интереса по мере появления новых инструментов, таких как этот.

Согласно мониторингу 1M AI News, команда Meituan LongCat открыла исходный код LongCat-Flash-Prover — модель MoE с 560 миллиардами параметров, специализирующуюся на математических задачах в языке формализованного доказательства теорем Lean4. Веса модели выпущены по лицензии MIT и уже доступны на GitHub, Hugging Face и ModelScope.

Модель разбивает формализованное рассуждение на три независимые способности: автоматическую формализацию (преобразование математических задач на естественном языке в формальные утверждения Lean4), генерацию эскиза (создание каркаса доказательства в стиле леммы) и генерацию полного доказательства. Все три способности реализуются через интеграцию инструментов агента с интерактивным подтверждением в реальном времени с компилятором Lean4.


В области обучения команда предложила гибридную экспертную итерационную рамку для генерации данных при холодном запуске, а на этапе обучения с подкреплением внедрила алгоритм HisPO для стабилизации долгосрочного обучения модели MoE, а также добавила механизмы проверки теоретической согласованности и легитимности для предотвращения reward hacking.

Тестирование показало, что LongCat-Flash-Prover установил новые рекорды в автоматической формализации и доказательстве теорем среди моделей с открытыми весами. На MiniF2F-Test достигнута точность 97,1% всего за 72 итерации, а на ProverBench и PutnamBench — 70,8% и 41,5% соответственно, при не более чем 220 итерациях на задачу.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.