Proposado ng Stanford at Berkeley ang LLM-as-a-Verifier, nangunguna sa Terminal-Bench at SWE-Bench

Ang ME News ay nag-ulat na noong Abril 14 (UTC+8), ayon sa pagmamasid ng 1M AI News, kapag ang AI programming agent ay nagpapatakbo ng isang task nang maraming beses, madalas itong magbibigay ng iba’t ibang solusyon, kung saan ilan ay tama at ilan ay mali. Kung maaaring awtomatikong piliin ang pinakamahusay, maaaring lalong mapataas ang pangkabuuang tagumpay. Ang tanong ay paano ito piliin: ang paggamit ng isang ibang model bilang hurado na nagbibigay ng puntos (o LLM-as-a-Judge) ay kasalukuyang pangunahing paraan, ngunit ang antas ng pagmamarka ay masyadong malaki, at madalas itong magbibigay ng parehong puntos sa iba’t ibang solusyon, kaya’t hindi makakapagpasya kung alin ang mas mabuti. Ang Stanford AI Laboratory at ang Berkeley Sky Computing Laboratory, kasama ang NVIDIA, ay nagmungkahi ng LLM-as-a-Verifier upang mapabuti ang proseso ng pagpili. Hindi na lamang pinapansin ang huling puntos na ibinigay ng hurado, kundi binabasa ang probability distribution ng model sa bawat antas ng pagmamarka upang kalkulahin ang isang tuloy-tuloy na reward value. Kasabay nito, inuulit ng hurado ang paghuhusga nang maraming beses at kinukuha ang average upang tanggalin ang random na bias, at hinati ang buong pagsusuri sa tatlong hiwalay na dimensyon (kung natutugunan ang mga pangangailangan ng task, kung tama ang output format, at kung mayroon bang maliit na signal ng error) para sa bawat isa. Sa eksperimento, ginamit ang Gemini 2.5 Flash bilang verifier, na nakamit ang 74.7% na accuracy sa isang pagpapatakbo, samantalang ang tradisyonal na Judge ay may 57.0% lamang; pagkatapos ng 16 ulit, umabot ang Verifier sa 77.4%, habang ang Judge ay 70.2%. Mayroong 26.5% na mga pagkakahambing na nagwakas sa isang draw sa tradisyonal na Judge, samantalang ang Verifier ay may 0% na draw rate sa lahat ng konfigurasyon. Sa praktikal na epekto: sa Terminal-Bench 2, kapag ginawa ng GPT-5.4 ang 5 pagpapatakbo sa isang task at pinili nang random ang isang solusyon, ang tagumpay ay 81.8%, ngunit tumataas ito sa 86.4% pagkatapos gamitin ang Verifier. Sa SWE-Bench Verified, mula sa isang solusyon bawat isa mula sa Claude Opus 4.5, Claude Opus 4.6, at Gemini 3 Flash (kabuuang 3), itinataas ng pagpili ang tagumpay mula sa 76.1% patungo sa 77.8%. Noong ipinahayag ito noong Abril 9, parehong nasa unahan. Ang framework ay nasa open source na. (Pinagmulan: BlockBeats)