Stanford dan Berkeley Mengusulkan LLM-sebagai-Verifier, Teratas di Terminal-Bench dan SWE-Bench

Berita ME, 14 April (UTC+8), menurut pemantauan 1M AI News, ketika agen pemrograman AI menangani satu tugas, menjalankannya beberapa kali sering menghasilkan solusi yang berbeda, beberapa benar dan beberapa salah. Jika solusi terbaik dapat dipilih secara otomatis, tingkat keberhasilan keseluruhan dapat melebihi hasil satu kali eksekusi. Masalahnya adalah bagaimana memilihnya: menggunakan model lain sebagai wasit untuk memberi skor (LLM-as-a-Judge) adalah pendekatan utama saat ini, tetapi tingkat kehalusan skor terlalu kasar, sering memberikan skor yang sama untuk solusi yang berbeda, sehingga tidak dapat membedakan mana yang lebih baik. Laboratorium AI Stanford dan Laboratorium Sky Computing Berkeley bekerja sama dengan NVIDIA mengusulkan LLM-as-a-Verifier, yang meningkatkan proses pemilihan ini. Alih-alih hanya melihat skor akhir yang diberikan wasit, model membaca distribusi probabilitas pada setiap tingkat penilaian, lalu menghitung nilai hadiah kontinu. Selain itu, wasit melakukan penilaian berulang kali dan mengambil rata-rata untuk menghilangkan bias acak, serta membagi evaluasi keseluruhan menjadi tiga dimensi independen (apakah memenuhi persyaratan tugas, apakah format output benar, apakah ada sinyal kesalahan) untuk diverifikasi secara terpisah. Dalam eksperimen, Gemini 2.5 Flash digunakan sebagai verifier, dengan akurasi verifikasi tunggal sebesar 74,7%, sementara Judge tradisional hanya 57,0%; setelah 16 kali pengulangan, Verifier mencapai 77,4%, sedangkan Judge sebesar 70,2%. Judge tradisional menghasilkan 26,5% hasil seri dalam perbandingan, sementara Verifier memiliki tingkat seri 0% di semua konfigurasi. Efek nyata: Di Terminal-Bench 2, menjalankan GPT-5.4 lima kali untuk tugas yang sama dengan memilih secara acak memberikan tingkat keberhasilan 81,8%, sedangkan dengan pemilihan Verifier meningkat menjadi 86,4%. Di SWE-Bench Verified, dengan mengambil satu solusi masing-masing dari Claude Opus 4.5, Claude Opus 4.6, dan Gemini 3 Flash (total 3 solusi), setelah pemilihan tingkat keberhasilan meningkat dari 76,1% menjadi 77,8%. Pada tanggal rilis 9 April, keduanya berada di peringkat teratas. Kerangka kerja ini telah dirilis sebagai open source. (Sumber: BlockBeats)