Stanford dan Berkeley mencadangkan LLM-sebagai-Pengesah, teratas di Terminal-Bench dan SWE-Bench

ME News melaporkan, pada 14 April (UTC+8), menurut pemantauan 1M AI News, apabila agen pemrograman AI menjalankan tugas tunggal berulang kali, ia sering menghasilkan penyelesaian yang berbeza—ada yang betul dan ada yang salah. Jika penyelesaian terbaik boleh dipilih secara automatik, kejayaan keseluruhan boleh melebihi sekali larian. Masalahnya ialah bagaimana memilihnya: menggunakan model lain sebagai hakim untuk memberi markah (iaitu LLM-as-a-Judge) adalah pendekatan utama semasa ini, tetapi ketepatan markahnya terlalu kasar, sering memberi markah yang sama kepada penyelesaian yang berbeza, sehingga tidak dapat membezakan yang terbaik. Laboratorium AI Stanford dan Laboratorium Sky Computing Berkeley bekerjasama dengan NVIDIA mengusulkan LLM-as-a-Verifier, yang memperbaiki proses pemilihan ini. Alih-alih hanya melihat markah akhir yang diberikan oleh hakim, ia membaca taburan kebarangkalian model pada setiap peringkat penilaian untuk mengira nilai ganjaran berterusan. Hakim juga diberi tugas menilai berulang kali dan mengambil purata untuk menghapuskan bias kebetulan, serta membahagikan penilaian keseluruhan kepada tiga dimensi berasingan (samada memenuhi keperluan tugas, format output betul, dan adakah isyarat kesalahan wujud) untuk pengesahan berasingan. Dalam eksperimen, Gemini 2.5 Flash digunakan sebagai verifier, dengan ketepatan penilaian sekali lari sebanyak 74.7%, manakala Judge tradisional hanya 57.0%; selepas 16 kali ulangan, Verifier mencapai 77.4%, manakala Judge 70.2%. Judge tradisional menghasilkan 26.5% perbandingan yang berakhir seri, manakala Verifier mempunyai kadar seri 0% dalam semua konfigurasi. Dalam kes nyata: di Terminal-Bench 2, apabila GPT-5.4 menjalankan tugas yang sama sebanyak 5 kali dan memilih satu secara rawak, kejayaan adalah 81.8%; selepas dipilih oleh Verifier, ia meningkat kepada 86.4%. Di SWE-Bench Verified, dengan mengambil satu penyelesaian daripada Claude Opus 4.5, Claude Opus 4.6, dan Gemini 3 Flash (jumlah 3), selepas pemilihan, kejayaan meningkat dari 76.1% kepada 77.8%. Pada tarikh pelancaran pada 9 April, kedua-duanya berada di tangga teratas. Kerangka kerja ini telah dibuka sumber. (Sumber: BlockBeats)