史丹佛與柏克萊提出 LLM-as-a-Verifier，登上 Top Terminal-Bench 和 SWE-Bench

ME News 消息，4 月 14 日（UTC+8），據 1M AI News 監測，AI 編程代理在處理單一任務時，多次運行往往會產生不同的解法，其中可能有對有錯。若能自動挑出最佳解法，整體成功率即可超越單次運行。問題在於如何挑選：讓另一個模型擔任裁判打分（即 LLM-as-a-Judge）是目前的主流做法，但打分粒度過於粗糙，經常為不同解法賦予相同分數，難以分辨優劣。斯坦福 AI 實驗室與柏克萊 Sky Computing 實驗室聯合英偉達提出 LLM-as-a-Verifier，改良了此挑選流程。不再僅依賴裁判提供的最終分數，而是讀取模型在各評分等級上的機率分佈，並據此計算出連續的獎勵值。同時讓裁判重複評判多次並取平均，以消除隨機偏差，並將整體評估拆解為三個獨立維度（是否符合任務要求、輸出格式是否正確、是否存在錯誤訊號）分別驗證。實驗中使用 Gemini 2.5 Flash 作為驗證器，單次驗證準確率為 74.7%，傳統 Judge 僅為 57.0%；重複 16 次後，Verifier 達到 77.4%，Judge 為 70.2%。傳統 Judge 有 26.5% 的對比以平局收場，而 Verifier 在所有配置下平局率均為 0%。實際效果：在 Terminal-Bench 2 上，讓 GPT-5.4 針對同一任務運行 5 次，隨機選取一解的成功率為 81.8%，使用 Verifier 挑選後提升至 86.4%。在 SWE-Bench Verified 上，從 Claude Opus 4.5、Claude Opus 4.6 與 Gemini 3 Flash 各取一條解法（共 3 條），挑選後成功率從 76.1% 提升至 77.8%。截至 4 月 9 日發布時，兩項成績均位居榜首。該框架已開源。（來源：BlockBeats）