Menurut pemantauan 1M AI News , pasukan LongCat dari Meituan telah melepaskan LongCat-Flash-Prover, sebuah model MoE dengan 560 bilion parameter yang khusus dirancang untuk tugas penarikan kesimpulan matematik dalam bahasa pembuktian formal Lean4. Bobot model telah dikeluarkan di bawah lesen MIT dan kini tersedia di GitHub, Hugging Face, dan ModelScope.
Model membahagikan penarafan formal kepada tiga kemampuan berasingan: formalisasi automatik (mengubah soalan matematik bahasa semula jadi menjadi pernyataan Lean4), penghasilan kerangka (menghasilkan kerangka bukti gaya lema), dan penghasilan bukti lengkap. Ketiga-tiga kemampuan ini dipertingkatkan melalui integrasi alat Agen dengan penarafan (TIR) dan interaksi masa nyata dengan kompiler Lean4.
Dalam hal latihan, pasukan mengusulkan Kerangka Iterasi Hybrid-Experts untuk menghasilkan data permulaan sejuk, serta memperkenalkan algoritma HisPO dalam fasa pembelajaran penguatan untuk menstabilkan latihan tugas jangka panjang model MoE, sambil menambahkan mekanisme pengesahan konsistensi teorem dan legaliti untuk mencegah reward hacking.
Ujian piawai menunjukkan bahawa LongCat-Flash-Prover telah memperbaharui dua SOTA dalam formalisasi automatik dan pembuktian teorem di kalangan model dengan bobot sumber terbuka. Ia mencapai kadar lulus 97.1% hanya dengan 72 inferens di MiniF2F-Test, serta 70.8% dan 41.5% masing-masing di ProverBench dan PutnamBench, dengan tidak melebihi 220 inferens setiap soalan.
