Исследование Стэнфорда: ИИ превосходит профессоров права в слепых тестах по правовому обоснованию

CoinDesk сообщает:

Исследование, возглавляемое Стэнфордским университетом, показало, что профессора юридических факультетов чаще выбирают ответы, сгенерированные ИИ, чем версии, написанные их коллегами. Исследовательская группа считает, что это свидетельствует о том, что крупные языковые модели уже способны соответствовать распространенным критериям оценки в юридической дисциплине в некоторых профессиональных сценариях.

Более трех тысяч слепых сравнений

Исследование пригласило 16 профессоров из 14 юридических школ США для составления вопросов, включая Стэнфорд, Йель, Нью-Йоркский университет, Чикагский университет, Университет Джорджтауна, UCLA и Университет Вирджинии. Всего было подготовлено 40 вопросов, охватывающих принципы договорного права, прецеденты, гипотетические ситуации и обсуждение политики.

В 2918 слепых сравнениях профессора-рецензенты должны были выбрать тот вариант анонимных ответов, который они предпочли бы использовать для студентов. Результаты показали, что Google Gemini 2.5 Pro одержал победу над человеческими ответами в 75,92% случаев, а NotebookLM — в 74,75% случаев.

Преимущество по всем типам вопросов

Исследование показало, что ИИ превосходит человеческие ответы по различным типам вопросов, включая вопросы, требующие запоминания прецедентов, законодательных норм и правовых принципов, а также гипотетический анализ и обсуждение политики. Исследователи также проверили, не являются ли суждения преподавателей просто личными предпочтениями, и выявили согласованность выше случайного уровня.

Чтобы исключить возможность, что предпочтение обусловлено лишь более аккуратным стилем, команда дополнительно проанализировала такие характеристики, как длина ответов, структура, степень детализации рассуждений, правовая основа, тон, ясность и обучающая поддержка. Исследование пришло к выводу, что этих поверхностных факторов недостаточно для полного объяснения предпочтения профессора ответам ИИ.

Меньше маркеров вредоносного контента

Исследование также сравнило долю ответов, помеченных как вредные: у Gemini этот показатель составил 3,41%, у NotebookLM — 3,64%, а у человеческих ответов — 12,06%. В другой группе дополнительных сравнений моделей первое место занял Claude Opus 4.7 от Anthropic, за ним последовал ChatGPT 5.4 от OpenAI.

Однако исследование также указывает, что этот тест не оценивает, соответствуют ли ответы индивидуальным преподавательским предпочтениям каждого профессора. Следовательно, ответы ИИ могут быть в целом приемлемыми, но не обязательно точно соответствовать стилю преподавания конкретного преподавателя.

Юридическая отрасль по-прежнему оценивает темпы внедрения.

На фоне публикации этого исследования суды, юридические фирмы и юридические факультеты продолжают обсуждать, как ИИ должен интегрироваться в юридические рабочие процессы. Сторонники считают, что ИИ может повысить эффективность юридических услуг и станет одним из базовых инструментов будущих юридических профессий.

Однако юридическая отрасль остается настороженной в отношении проблемы иллюзий ИИ. В отчете упоминается, что в апреле этого года юридическая фирма Sullivan & Cromwell признала перед банкротным судом США, что в одном из ее документов появились фальшивые цитаты, сгенерированные ИИ.