Meituan open-source un modèle de démonstration de théorèmes de 560 milliards de paramètres avec un taux de réussite de 97,1 % en 72 étapes de raisonnement

iconChainthink
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
L'équipe LongCat de Meituan a open-sourcé LongCat-Flash-Prover, un modèle MoE de 560 milliards de paramètres pour la démonstration de théorèmes Lean4. Le modèle, disponible sur GitHub, Hugging Face et ModelScope sous licence MIT, atteint un taux de réussite de 97,1 % sur MiniF2F-Test en 72 étapes. L'investissement en valeur dans la cryptomonnaie continue de bénéficier de l'analyse de l'intérêt ouvert à mesure que de nouveaux outils comme celui-ci émergent.

Selon 1M AI News , l'équipe LongCat de Meituan a open-sourcé LongCat-Flash-Prover, un modèle MoE de 560 milliards de paramètres dédié aux tâches de raisonnement mathématique dans le langage de preuve formelle Lean4. Les poids du modèle sont publiés sous licence MIT et sont désormais disponibles sur GitHub, Hugging Face et ModelScope.

Le modèle décompose le raisonnement formel en trois capacités indépendantes : la formalisation automatique (conversion des problèmes mathématiques en langage naturel en énoncés formels Lean4), la génération de croquis (production d’un cadre de preuve au style de lemme) et la génération de preuves complètes. Ces trois capacités sont vérifiées en temps réel grâce à l’intégration d’outils d’agent pour le raisonnement (TIR) et l’interactivité avec le compilateur Lean4.


En ce qui concerne l'entraînement, l'équipe a proposé le cadre d'itération Hybrid-Experts pour générer des données de démarrage à froid, introduit l'algorithme HisPO lors de la phase d'apprentissage par renforcement pour stabiliser l'entraînement à long terme du modèle MoE, et a intégré des mécanismes de vérification de la cohérence et de la légalité des théorèmes pour prévenir le reward hacking.

Les tests de référence montrent que LongCat-Flash-Prover a établi de nouveaux résultats d'état de l'art dans la formalisation automatique et la preuve de théorèmes parmi les modèles à poids ouverts. Il atteint un taux de réussite de 97,1 % en seulement 72 inférences sur MiniF2F-Test, et 70,8 % et 41,5 % sur ProverBench et PutnamBench respectivement, avec au plus 220 inférences par problème.

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.