Стенфорд і Берклі запропонували LLM як перевірника, лідери Terminal-Bench і SWE-Bench

ME News: 14 квітня (UTC+8), за даними 1M AI News, при виконанні AI-агентами програмування одного завдання кілька разів часто отримуються різні рішення — деякі правильні, деякі неправильні. Якщо вдасться автоматично вибрати найкраще з них, загальна успішність зросте порівняно з одноразовим запуском. Проблема полягає у тому, як це зробити: найпоширенішим підходом є використання іншої моделі як судді для оцінки (LLM-as-a-Judge), але такий підхід має надто грубу точність оцінки — часто різні рішення отримують однаковий бал, і неможливо визначити переможця. Стандфордська лабораторія штучного інтелекту та лабораторія Sky Computing Берклі у співпраці з NVIDIA запропонували LLM-as-a-Verifier, що покращує цей процес вибору. Замість того щоб дивитися лише на кінцевий бал судді, модель аналізує розподіл ймовірностей по всіх рівнях оцінки, щоб обчислити безперервне значення нагороди. Крім того, суддя повторює оцінку кілька разів і обчислює середнє значення, щоб усунути випадкове зміщення, а загальну оцінку розбивають на три незалежні виміри: чи виконано завдання, чи правильний формат виводу, чи присутні ознаки помилок. У експерименті використовувався Gemini 2.5 Flash як верифікатор: точність одноразової верифікації становила 74,7%, тоді як традиційний Judge — лише 57,0%; після 16 повторень Verifier досяг 77,4%, а Judge — 70,2%. Традиційний Judge мав 26,5% випадків з нічиєю, тоді як Verifier показав 0% нічиїх у всіх конфігураціях. Практичний ефект: на Terminal-Bench 2, при 5 запусках однієї задачі GPT-5.4 та випадковому виборі одного розв’язку успішність становила 81,8%, а після вибору за допомогою Verifier — 86,4%. На SWE-Bench Verified, при виборі по одному розв’язку з Claude Opus 4.5, Claude Opus 4.6 та Gemini 3 Flash (разом 3 розв’язки), успішність зросла з 76,1% до 77,8%. На момент публікації 9 квітня обидва результати були першими у світі. Фреймворк вже відкрито випущено. (Джерело: BlockBeats)