Meituan、72ステップの推論で97.1%の合格率を達成した560Bパラメータの定理証明モデルをオープンソース化

iconChainthink
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
美团的LongCat团队开源了用于Lean4定理证明的5600亿参数MoEモデルLongCat-Flash-Prover。このモデルはGitHub、Hugging Face、ModelScopeでMITライセンスのもと提供されており、72ステップでMiniF2F-Testにおいて97.1%の合格率を達成しています。このような新しいツールの登場により、暗号資産におけるバリュー投資はオープンインターベスト分析の恩恵を引き続き受けています。

1M AI Newsの監視によると、Meituan LongCatチームは、形式化定理証明言語Lean4の数学的推論タスクに特化した5600億パラメータのMoEモデル「LongCat-Flash-Prover」をオープンソース化しました。モデルの重みはMITライセンスで公開され、GitHub、Hugging Face、ModelScopeにアップロードされています。

モデルは形式的推論を三つの独立した能力に分解します:自動形式化(自然言語の数学的問題をLean4形式の文に変換)、スケッチ生成(補題スタイルの証明フレームワークを生成)、および完全な証明生成。これらの能力はすべて、Agentツールによる統合推論(TIR)とLean4コンパイラとのリアルタイムインタラクションによって検証されます。


トレーニング面では、チームがHybrid-Experts Iteration Frameworkを用いてコールドスタートデータを生成し、強化学習段階でHisPOアルゴリズムを導入してMoEモデルの長期タスクトレーニングを安定化させるとともに、リワードハッキングを防ぐために定理の一貫性と合法性検出メカニズムを追加しました。

ベンチマーク結果によると、LongCat-Flash-Prover はオープンソースの重みモデルにおいて、自動形式化と定理証明の両方で SOTA を更新しました。MiniF2F-Test ではわずか 72 回の推論で 97.1% の通過率を達成し、ProverBench と PutnamBench ではそれぞれ 70.8% と 41.5% を記録し、各問題あたりの推論回数は最大 220 回以内です。

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。