Stanford ve Berkeley, LLM-as-a-Verifier, Top Terminal-Bench ve SWE-Bench öneriyor

ME Haberleri'ne göre, 14 Nisan (UTC+8) tarihinde 1M AI Haberleri'nin izlemesine göre, AI programlama ajantları tek bir görevi işlerken birden fazla kez çalıştırıldığında genellikle farklı çözümler üretir; bunlardan bazıları doğru, bazıları ise yanlıştır. En iyi çözüm otomatik olarak seçilirse, toplam başarı oranı tek bir çalıştırma sırasında elde edilen başarı oranını aşabilir. Soru şu: Nasıl seçilir? Şu anda yaygın yöntem, başka bir modelin hakem olarak puan vermesidir (LLM-as-a-Judge); ancak bu puanlama çok kaba olup, farklı çözümlere sıklıkla aynı puanları verir ve ayırt etmeyi zorlaştırır. Stanford AI Laboratuvarı ve Berkeley Sky Computing Laboratuvarı, NVIDIA ile birlikte bu seçim sürecini geliştirmek için LLM-as-a-Verifier yöntemini önerdi. Sadece hakemin verdiği nihai puanlara değil, modelin her puanlama seviyesindeki olasılık dağılımlarına bakarak sürekli bir ödül değeri hesaplandı. Aynı zamanda hakemin birden fazla kez değerlendirme yapması ve ortalama alınmasıyla rastgele sapmalar giderildi ve genel değerlendirme üç bağımsız boyutta ayrı ayrı doğrulandı (görev gereksinimlerini karşılayıp karşılamadığı, çıktı formatının doğru olup olmadığı, hatalı sinyallerin var olup olmadığı). Deneylerde Gemini 2.5 Flash doğrulayıcı olarak kullanıldı; tek seferlik doğrulama doğruluğu %74,7, geleneksel Hakem ise sadece %57,0; 16 kez tekrarlandığında Verifier %77,4, Hakem ise %70,2 oldu. Geleneksel Hakem'in karşılaştırmalarının %26,5'i berabere bitti; Verifier ise tüm yapılandırmalarda beraberlik oranı %0 oldu. Gerçek etki: Terminal-Bench 2 üzerinde, GPT-5.4'ün aynı görevi 5 kez çalıştırması ve rastgele bir çözüm seçimiyle elde edilen başarı oranı %81,8 iken, Verifier ile seçilen çözümle bu oran %86,4'e yükseldi. SWE-Bench Verified üzerinde, Claude Opus 4.5, Claude Opus 4.6 ve Gemini 3 Flash'tan her birinden bir çözüm alınarak (toplam 3 çözüm), seçim sonrası başarı oranı %76,1'den %77,8'e yükseldi. 9 Nisan tarihinde yayınlanan itibarıyla, her iki testte de ilk sırada yer aldı. Çerçeve açık kaynak kodlu hale getirildi. (Kaynak: BlockBeats)