Стэнфорд и Беркли предлагают LLM-as-a-Verifier, лучшие результаты в Terminal-Bench и SWE-Bench

Согласно новости ME, 14 апреля (UTC+8), по данным мониторинга 1M AI News, при выполнении AI-программных агентов одной задачи многократно часто получаются разные решения, некоторые из которых верны, а некоторые — нет. Если автоматически выбирать наилучшее решение, общая успешность может превысить результат однократного запуска. Проблема заключается в том, как это сделать: текущим стандартом является использование другой модели в качестве судьи для оценки (LLM-as-a-Judge), однако точность оценки слишком низкая — часто разные решения получают одинаковые баллы, что не позволяет определить лучшее. Лаборатория ИИ Стэнфорда и лаборатория Sky Computing Беркли в сотрудничестве с NVIDIA предложили метод LLM-as-a-Verifier, улучшивший этот процесс отбора. Вместо того чтобы полагаться только на итоговый балл, выдаваемый судьей, новый подход анализирует распределение вероятностей модели по каждому уровню оценки, чтобы вычислить непрерывное значение вознаграждения. Кроме того, судья многократно оценивает решение и вычисляет среднее значение для устранения случайных отклонений, а также разбивает общую оценку на три независимых измерения (соответствует ли решение требованиям задачи, корректен ли формат вывода, присутствуют ли признаки ошибок) для отдельной проверки каждого. В экспериментах в качестве верификатора использовался Gemini 2.5 Flash: точность однократной верификации составила 74,7%, в то время как традиционный Judge — лишь 57,0%; после 16 повторений Verifier достиг 77,4%, а Judge — 70,2%. Традиционный Judge зафиксировал 26,5% ничейных исходов при сравнении, тогда как Verifier показал 0% ничьих во всех конфигурациях. Практический эффект: на Terminal-Bench 2, при пятикратном запуске одной задачи GPT-5.4 и случайном выборе одного решения успех составил 81,8%, а после выбора с помощью Verifier повысился до 86,4%. На SWE-Bench Verified, при выборе по одному решению из Claude Opus 4.5, Claude Opus 4.6 и Gemini 3 Flash (всего три решения), после отбора результат вырос с 76,1% до 77,8%. На момент публикации 9 апреля оба результата занимали первые места. Фреймворк уже открыт для общего доступа. (Источник: BlockBeats)