史丹佛與柏克萊提出 LLM-as-a-Verifier,登上 Top Terminal-Bench 和 SWE-Bench

iconKuCoinFlash
分享
AI summary icon精華摘要

ME News 消息,4 月 14 日(UTC+8),據 1M AI News 監測,AI 編程代理在處理單一任務時,多次運行往往會產生不同的解法,其中可能有對有錯。若能自動挑出最佳解法,整體成功率即可超越單次運行。問題在於如何挑選:讓另一個模型擔任裁判打分(即 LLM-as-a-Judge)是目前的主流做法,但打分粒度過於粗糙,經常為不同解法賦予相同分數,難以分辨優劣。 斯坦福 AI 實驗室與柏克萊 Sky Computing 實驗室聯合英偉達提出 LLM-as-a-Verifier,改良了此挑選流程。不再僅依賴裁判提供的最終分數,而是讀取模型在各評分等級上的機率分佈,並據此計算出連續的獎勵值。同時讓裁判重複評判多次並取平均,以消除隨機偏差,並將整體評估拆解為三個獨立維度(是否符合任務要求、輸出格式是否正確、是否存在錯誤訊號)分別驗證。實驗中使用 Gemini 2.5 Flash 作為驗證器,單次驗證準確率為 74.7%,傳統 Judge 僅為 57.0%;重複 16 次後,Verifier 達到 77.4%,Judge 為 70.2%。傳統 Judge 有 26.5% 的對比以平局收場,而 Verifier 在所有配置下平局率均為 0%。 實際效果:在 Terminal-Bench 2 上,讓 GPT-5.4 針對同一任務運行 5 次,隨機選取一解的成功率為 81.8%,使用 Verifier 挑選後提升至 86.4%。在 SWE-Bench Verified 上,從 Claude Opus 4.5、Claude Opus 4.6 與 Gemini 3 Flash 各取一條解法(共 3 條),挑選後成功率從 76.1% 提升至 77.8%。截至 4 月 9 日發布時,兩項成績均位居榜首。該框架已開源。 (來源:BlockBeats)

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露