美團開源 560B 參數定理證明模型,在 72 步推理中通過率達 97.1%

iconChainthink
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
美團的 LongCat 團隊已開源 LongCat-Flash-Prover,這是一個用於 Lean4 定理證明的 5600 億參數 MoE 模型。該模型在 GitHub、Hugging Face 和 ModelScope 上以 MIT 授權釋出,在 72 步內於 MiniF2F-Test 上達到 97.1% 的通過率。隨著此類新工具的出現,加密貨幣的價值投資持續受益於未平倉合約分析。

根據 1M AI News 監測,美團 LongCat 團隊開源了 LongCat-Flash-Prover,一個 5600 億參數的 MoE 模型,專注於形式化定理證明語言 Lean4 的數學推理任務。模型權重以 MIT 協議發布,已上線 GitHub、Hugging Face 和 ModelScope。

模型將形式化推理拆解為三項獨立能力:自動形式化(將自然語言數學問題轉化為 Lean4 形式語句)、草圖生成(產出引理風格的證明框架)和完整證明生成。三項能力均通過 Agent 工具集成推理(TIR)與 Lean4 編譯器實時交互驗證。


在訓練方面,團隊提出 Hybrid-Experts Iteration Framework 以生成冷啟動數據,並在強化學習階段引入 HisPO 算法以穩定 MoE 模型的長程任務訓練,同時加入定理一致性與合法性檢測機制以防止 reward hacking。

基準測試顯示,LongCat-Flash-Prover 在開源權重模型中刷新了自動形式化和定理證明兩項 SOTA。在 MiniF2F-Test 上僅用 72 次推理即達 97.1% 通過率,ProverBench 和 PutnamBench 分別達到 70.8% 和 41.5%,每題推理次數不超過 220 次。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露