Стэнфорд и Беркли предлагают LLM-as-a-Verifier, лучшие результаты в Terminal-Bench и SWE-Bench

iconKuCoinFlash
Поделиться
AI summary iconСводка

Согласно новости ME, 14 апреля (UTC+8), по данным мониторинга 1M AI News, при выполнении AI-программных агентов одной задачи многократно часто получаются разные решения, некоторые из которых верны, а некоторые — нет. Если автоматически выбирать наилучшее решение, общая успешность может превысить результат однократного запуска. Проблема заключается в том, как это сделать: текущим стандартом является использование другой модели в качестве судьи для оценки (LLM-as-a-Judge), однако точность оценки слишком низкая — часто разные решения получают одинаковые баллы, что не позволяет определить лучшее. Лаборатория ИИ Стэнфорда и лаборатория Sky Computing Беркли в сотрудничестве с NVIDIA предложили метод LLM-as-a-Verifier, улучшивший этот процесс отбора. Вместо того чтобы полагаться только на итоговый балл, выдаваемый судьей, новый подход анализирует распределение вероятностей модели по каждому уровню оценки, чтобы вычислить непрерывное значение вознаграждения. Кроме того, судья многократно оценивает решение и вычисляет среднее значение для устранения случайных отклонений, а также разбивает общую оценку на три независимых измерения (соответствует ли решение требованиям задачи, корректен ли формат вывода, присутствуют ли признаки ошибок) для отдельной проверки каждого. В экспериментах в качестве верификатора использовался Gemini 2.5 Flash: точность однократной верификации составила 74,7%, в то время как традиционный Judge — лишь 57,0%; после 16 повторений Verifier достиг 77,4%, а Judge — 70,2%. Традиционный Judge зафиксировал 26,5% ничейных исходов при сравнении, тогда как Verifier показал 0% ничьих во всех конфигурациях. Практический эффект: на Terminal-Bench 2, при пятикратном запуске одной задачи GPT-5.4 и случайном выборе одного решения успех составил 81,8%, а после выбора с помощью Verifier повысился до 86,4%. На SWE-Bench Verified, при выборе по одному решению из Claude Opus 4.5, Claude Opus 4.6 и Gemini 3 Flash (всего три решения), после отбора результат вырос с 76,1% до 77,8%. На момент публикации 9 апреля оба результата занимали первые места. Фреймворк уже открыт для общего доступа. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.