スタンフォード大学とバークレー大学がLLM-as-a-Verifierを提案、Top Terminal-BenchおよびSWE-Benchを達成

MEニュース：4月14日（UTC+8）、1M AI Newsの監視によると、AIプログラミングエージェントが単一タスクを複数回実行すると、異なる解決策が得られ、その中には正解と不正解が混在する。最良の解決策を自動的に選択できれば、全体の成功率は単一実行よりも向上する。問題は、どのように選ぶかである。現在の主流手法は、別のモデルを裁判官として採点させる「LLM-as-a-Judge」だが、採点の粒度が粗く、異なる解決策に同じ点数を付与することが頻繁にあり、優劣を判別できない。スタンフォードAI研究所とバークレーのSky Computing研究所がNVIDIAと共同で開発した「LLM-as-a-Verifier」は、この選択プロセスを改善した。裁判官が与える最終スコアだけでなく、各採点レベルにおける確率分布を読み取り、連続的な報酬値を算出する。また、裁判官に複数回評価させ、その平均値を取ることで偶然のバイアスを排除し、全体評価を3つの独立した次元（タスク要件の満たし具合、出力形式の正しさ、誤りシグナルの有無）に分けて検証する。実験ではGemini 2.5 Flashを検証器として使用し、単一検証の正確性は74.7％で、従来のJudgeは57.0％だった。16回繰り返した場合、Verifierは77.4％、Judgeは70.2％となった。従来のJudgeは26.5％の比較で引き分けとなったが、Verifierはすべての設定で引き分け率が0％だった。実際の効果：Terminal-Bench 2では、GPT-5.4が同一タスクを5回実行し、ランダムに1つを選んだ場合の成功率は81.8％だったが、Verifierで選択した場合86.4％に向上した。SWE-Bench Verifiedでは、Claude Opus 4.5、Claude Opus 4.6、Gemini 3 Flashからそれぞれ1つの解決策（合計3つ）を取り、選択後76.1％から77.8％に向上した。4月9日公開時点では、両方ともトップランキングを記録した。このフレームワークはオープンソース化されている。（出典：BlockBeats）