スタンフォード大学とバークレー大学がLLM-as-a-Verifierを提案、Top Terminal-BenchおよびSWE-Benchを達成

iconKuCoinFlash
共有
AI summary icon概要

MEニュース:4月14日(UTC+8)、1M AI Newsの監視によると、AIプログラミングエージェントが単一タスクを複数回実行すると、異なる解決策が得られ、その中には正解と不正解が混在する。最良の解決策を自動的に選択できれば、全体の成功率は単一実行よりも向上する。問題は、どのように選ぶかである。現在の主流手法は、別のモデルを裁判官として採点させる「LLM-as-a-Judge」だが、採点の粒度が粗く、異なる解決策に同じ点数を付与することが頻繁にあり、優劣を判別できない。スタンフォードAI研究所とバークレーのSky Computing研究所がNVIDIAと共同で開発した「LLM-as-a-Verifier」は、この選択プロセスを改善した。裁判官が与える最終スコアだけでなく、各採点レベルにおける確率分布を読み取り、連続的な報酬値を算出する。また、裁判官に複数回評価させ、その平均値を取ることで偶然のバイアスを排除し、全体評価を3つの独立した次元(タスク要件の満たし具合、出力形式の正しさ、誤りシグナルの有無)に分けて検証する。実験ではGemini 2.5 Flashを検証器として使用し、単一検証の正確性は74.7%で、従来のJudgeは57.0%だった。16回繰り返した場合、Verifierは77.4%、Judgeは70.2%となった。従来のJudgeは26.5%の比較で引き分けとなったが、Verifierはすべての設定で引き分け率が0%だった。実際の効果:Terminal-Bench 2では、GPT-5.4が同一タスクを5回実行し、ランダムに1つを選んだ場合の成功率は81.8%だったが、Verifierで選択した場合86.4%に向上した。SWE-Bench Verifiedでは、Claude Opus 4.5、Claude Opus 4.6、Gemini 3 Flashからそれぞれ1つの解決策(合計3つ)を取り、選択後76.1%から77.8%に向上した。4月9日公開時点では、両方ともトップランキングを記録した。このフレームワークはオープンソース化されている。(出典:BlockBeats)

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。