Meituan Membuka Sumber Model Pembuktian Teorem 560B Parameter dengan Kadar Lulus 97.1% dalam 72 Langkah Penalaran

iconChainthink
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Pasukan LongCat Meituan telah membuka sumber LongCat-Flash-Prover, model MoE dengan 560 bilion parameter untuk pembuktian teorem Lean4. Model ini, yang tersedia di GitHub, Hugging Face, dan ModelScope di bawah lesen MIT, mencapai kadar lulus 97.1% pada MiniF2F-Test dalam 72 langkah. Pelaburan nilai dalam kripto terus mendapat manfaat daripada analisis minat terbuka seiring munculnya alat-alat baru seperti ini.

Menurut pemantauan 1M AI News , pasukan LongCat dari Meituan telah melepaskan LongCat-Flash-Prover, sebuah model MoE dengan 560 bilion parameter yang khusus dirancang untuk tugas penarikan kesimpulan matematik dalam bahasa pembuktian formal Lean4. Bobot model telah dikeluarkan di bawah lesen MIT dan kini tersedia di GitHub, Hugging Face, dan ModelScope.

Model membahagikan penarafan formal kepada tiga kemampuan berasingan: formalisasi automatik (mengubah soalan matematik bahasa semula jadi menjadi pernyataan Lean4), penghasilan kerangka (menghasilkan kerangka bukti gaya lema), dan penghasilan bukti lengkap. Ketiga-tiga kemampuan ini dipertingkatkan melalui integrasi alat Agen dengan penarafan (TIR) dan interaksi masa nyata dengan kompiler Lean4.


Dalam hal latihan, pasukan mengusulkan Kerangka Iterasi Hybrid-Experts untuk menghasilkan data permulaan sejuk, serta memperkenalkan algoritma HisPO dalam fasa pembelajaran penguatan untuk menstabilkan latihan tugas jangka panjang model MoE, sambil menambahkan mekanisme pengesahan konsistensi teorem dan legaliti untuk mencegah reward hacking.

Ujian piawai menunjukkan bahawa LongCat-Flash-Prover telah memperbaharui dua SOTA dalam formalisasi automatik dan pembuktian teorem di kalangan model dengan bobot sumber terbuka. Ia mencapai kadar lulus 97.1% hanya dengan 72 inferens di MiniF2F-Test, serta 70.8% dan 41.5% masing-masing di ProverBench dan PutnamBench, dengan tidak melebihi 220 inferens setiap soalan.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.