Meituan abre el código del modelo de demostración de teoremas con 560 mil millones de parámetros y una tasa de aprobación del 97,1% en 72 pasos de razonamiento

iconChainthink
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
El equipo LongCat de Meituan ha liberado bajo licencia MIT a LongCat-Flash-Prover, un modelo MoE de 560 mil millones de parámetros para la demostración de teoremas en Lean4. El modelo, disponible en GitHub, Hugging Face y ModelScope, logra una tasa de aprobación del 97,1% en MiniF2F-Test en 72 pasos. La inversión en valor en criptocontinúa beneficiándose del análisis de interés abierto a medida que surgen nuevas herramientas como esta.

Según el monitoreo de 1M AI News , el equipo LongCat de Meituan ha lanzado como código abierto LongCat-Flash-Prover, un modelo MoE de 560 mil millones de parámetros diseñado específicamente para tareas de razonamiento matemático en el lenguaje de demostración formal Lean4. Los pesos del modelo se han publicado bajo la licencia MIT y ya están disponibles en GitHub, Hugging Face y ModelScope.

El modelo descompone el razonamiento formal en tres capacidades independientes: formalización automática (convertir problemas matemáticos en lenguaje natural a declaraciones en Lean4), generación de esquemas (producir marcos de prueba estilo lema) y generación de pruebas completas. Las tres capacidades se validan en tiempo real mediante la interacción con el compilador Lean4 a través de la integración de herramientas de razonamiento del agente (TIR).


En cuanto al entrenamiento, el equipo propuso el marco Hybrid-Experts Iteration para generar datos de arranque en frío, e introdujo el algoritmo HisPO en la fase de aprendizaje por refuerzo para estabilizar el entrenamiento a largo plazo del modelo MoE, además de incorporar mecanismos de verificación de consistencia y legalidad de teoremas para prevenir el reward hacking.

Las pruebas de referencia muestran que LongCat-Flash-Prover ha establecido nuevos récords SOTA en formalización automática y demostración de teoremas entre modelos con pesos abiertos. Alcanza una tasa de aprobación del 97,1% en MiniF2F-Test con solo 72 inferencias, y obtiene 70,8% en ProverBench y 41,5% en PutnamBench, con un máximo de 220 inferencias por problema.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.