ME News: 14 квітня (UTC+8), за даними 1M AI News, при виконанні AI-агентами програмування одного завдання кілька разів часто отримуються різні рішення — деякі правильні, деякі неправильні. Якщо вдасться автоматично вибрати найкраще з них, загальна успішність зросте порівняно з одноразовим запуском. Проблема полягає у тому, як це зробити: найпоширенішим підходом є використання іншої моделі як судді для оцінки (LLM-as-a-Judge), але такий підхід має надто грубу точність оцінки — часто різні рішення отримують однаковий бал, і неможливо визначити переможця. Стандфордська лабораторія штучного інтелекту та лабораторія Sky Computing Берклі у співпраці з NVIDIA запропонували LLM-as-a-Verifier, що покращує цей процес вибору. Замість того щоб дивитися лише на кінцевий бал судді, модель аналізує розподіл ймовірностей по всіх рівнях оцінки, щоб обчислити безперервне значення нагороди. Крім того, суддя повторює оцінку кілька разів і обчислює середнє значення, щоб усунути випадкове зміщення, а загальну оцінку розбивають на три незалежні виміри: чи виконано завдання, чи правильний формат виводу, чи присутні ознаки помилок. У експерименті використовувався Gemini 2.5 Flash як верифікатор: точність одноразової верифікації становила 74,7%, тоді як традиційний Judge — лише 57,0%; після 16 повторень Verifier досяг 77,4%, а Judge — 70,2%. Традиційний Judge мав 26,5% випадків з нічиєю, тоді як Verifier показав 0% нічиїх у всіх конфігураціях. Практичний ефект: на Terminal-Bench 2, при 5 запусках однієї задачі GPT-5.4 та випадковому виборі одного розв’язку успішність становила 81,8%, а після вибору за допомогою Verifier — 86,4%. На SWE-Bench Verified, при виборі по одному розв’язку з Claude Opus 4.5, Claude Opus 4.6 та Gemini 3 Flash (разом 3 розв’язки), успішність зросла з 76,1% до 77,8%. На момент публікації 9 квітня обидва результати були першими у світі. Фреймворк вже відкрито випущено. (Джерело: BlockBeats)
Стенфорд і Берклі запропонували LLM як перевірника, лідери Terminal-Bench і SWE-Bench
KuCoinFlashПоділитися
Найважливіші новини про альткоїни 14 квітня (UTC+8): Stanford AI Lab та Berkeley Sky Computing Lab разом із NVIDIA запропонували LLM-as-a-Verifier для покращення вибору рішень штучного інтелекту. Метод використовує безперервну винагороду на основі розподілів оцінок під час тестувань, досягаючи точності 77,4% після 16 тестів, що краще за традиційний LLM-as-a-Judge з показником 70,2%. На Terminal-Bench 2 та SWE-Bench Verified частка успіху склала 86,4% і 77,8% відповідно, що робить його лідером станом на 9 квітня. Фреймворк вже відкрито опубліковано. Новини про штучний інтелект та криптовалюту продовжують підкреслювати прориви у верифікації та продуктивності.
Джерело:Показати оригінал
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.