Berita ME, 14 April (UTC+8), menurut pemantauan 1M AI News, ketika agen pemrograman AI menangani satu tugas, menjalankannya beberapa kali sering menghasilkan solusi yang berbeda, beberapa benar dan beberapa salah. Jika solusi terbaik dapat dipilih secara otomatis, tingkat keberhasilan keseluruhan dapat melebihi hasil satu kali eksekusi. Masalahnya adalah bagaimana memilihnya: menggunakan model lain sebagai wasit untuk memberi skor (LLM-as-a-Judge) adalah pendekatan utama saat ini, tetapi tingkat kehalusan skor terlalu kasar, sering memberikan skor yang sama untuk solusi yang berbeda, sehingga tidak dapat membedakan mana yang lebih baik. Laboratorium AI Stanford dan Laboratorium Sky Computing Berkeley bekerja sama dengan NVIDIA mengusulkan LLM-as-a-Verifier, yang meningkatkan proses pemilihan ini. Alih-alih hanya melihat skor akhir yang diberikan wasit, model membaca distribusi probabilitas pada setiap tingkat penilaian, lalu menghitung nilai hadiah kontinu. Selain itu, wasit melakukan penilaian berulang kali dan mengambil rata-rata untuk menghilangkan bias acak, serta membagi evaluasi keseluruhan menjadi tiga dimensi independen (apakah memenuhi persyaratan tugas, apakah format output benar, apakah ada sinyal kesalahan) untuk diverifikasi secara terpisah. Dalam eksperimen, Gemini 2.5 Flash digunakan sebagai verifier, dengan akurasi verifikasi tunggal sebesar 74,7%, sementara Judge tradisional hanya 57,0%; setelah 16 kali pengulangan, Verifier mencapai 77,4%, sedangkan Judge sebesar 70,2%. Judge tradisional menghasilkan 26,5% hasil seri dalam perbandingan, sementara Verifier memiliki tingkat seri 0% di semua konfigurasi. Efek nyata: Di Terminal-Bench 2, menjalankan GPT-5.4 lima kali untuk tugas yang sama dengan memilih secara acak memberikan tingkat keberhasilan 81,8%, sedangkan dengan pemilihan Verifier meningkat menjadi 86,4%. Di SWE-Bench Verified, dengan mengambil satu solusi masing-masing dari Claude Opus 4.5, Claude Opus 4.6, dan Gemini 3 Flash (total 3 solusi), setelah pemilihan tingkat keberhasilan meningkat dari 76,1% menjadi 77,8%. Pada tanggal rilis 9 April, keduanya berada di peringkat teratas. Kerangka kerja ini telah dirilis sebagai open source. (Sumber: BlockBeats)
Stanford dan Berkeley Mengusulkan LLM-sebagai-Verifier, Teratas di Terminal-Bench dan SWE-Bench
KuCoinFlashBagikan
Berita altcoin teratas pada 14 April (UTC+8) menunjukkan Stanford AI Lab dan Berkeley Sky Computing Lab, bersama NVIDIA, mengusulkan LLM-as-a-Verifier untuk meningkatkan pemilihan solusi AI. Metode ini menggunakan reward kontinu dari distribusi peringkat selama evaluasi, mencapai akurasi 77,4% setelah 16 pengujian, lebih baik daripada LLM-as-a-Judge tradisional yang mencapai 70,2%. Pada Terminal-Bench 2 dan SWE-Bench Verified, tingkat keberhasilan mencapai 86,4% dan 77,8%, menjadikannya performa teratas hingga 9 April. Kerangka kerja ini kini telah di-open-source. Berita AI + crypto terus menonjolkan terobosan dalam verifikasi dan kinerja.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.