Meituan Melepaskan Model Pembuktian Teorema 560 Miliar Parameter dengan Tingkat Lulus 97,1% dalam 72 Langkah Penalaran

iconChainthink
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Tim LongCat dari Meituan telah melepaskan LongCat-Flash-Prover, model MoE dengan 560 miliar parameter untuk pembuktian teorema Lean4. Model ini, yang tersedia di GitHub, Hugging Face, dan ModelScope dengan lisensi MIT, mencapai tingkat kelulusan 97,1% pada MiniF2F-Test dalam 72 langkah. Investasi bernilai dalam kripto terus mendapat manfaat dari analisis open interest seiring munculnya alat-alat baru seperti ini.

Menurut pemantauan 1M AI News , tim LongCat dari Meituan mengopen-source LongCat-Flash-Prover, sebuah model MoE dengan 560 miliar parameter yang dirancang khusus untuk tugas penalaran matematis dalam bahasa pembuktian formal Lean4. Bobot model dirilis di bawah lisensi MIT dan telah tersedia di GitHub, Hugging Face, dan ModelScope.

Model memecah penalaran formal menjadi tiga kemampuan independen: formalisasi otomatis (mengubah masalah matematika dalam bahasa alami menjadi pernyataan formal Lean4), generasi sketsa (menghasilkan kerangka bukti bergaya lemma), dan generasi bukti lengkap. Ketiga kemampuan tersebut diverifikasi secara real-time melalui integrasi alat Agent dengan penalaran TIR dan compiler Lean4.


Dalam hal pelatihan, tim mengusulkan Hybrid-Experts Iteration Framework untuk menghasilkan data cold start, serta memperkenalkan algoritma HisPO pada tahap reinforcement learning untuk menstabilkan pelatihan jangka panjang model MoE, sekaligus menambahkan mekanisme pemeriksaan konsistensi teorema dan legalitas untuk mencegah reward hacking.

Hasil benchmark menunjukkan bahwa LongCat-Flash-Prover memperbarui dua SOTA dalam formalisasi otomatis dan pembuktian teorema pada model dengan bobot open-source. Dengan hanya 72 inferensi di MiniF2F-Test, mencapai tingkat kelulusan 97,1%, sementara ProverBench dan PutnamBench masing-masing mencapai 70,8% dan 41,5%, dengan tidak lebih dari 220 inferensi per soal.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.