Дослідження Стэнфордського університету: штучний інтелект перевершив професорів права у сліпих тестах

CoinDesk повідомляє:

Дослідження, очолюване Стенфордським університетом, показало, що професори юридичних факультетів частіше вибирають відповіді, згенеровані ШІ, ніж версії, написані колегами. Дослідницька група вважає, що це свідчить про те, що великі мовні моделі вже можуть відповідати загальним критеріям оцінки в деяких професійних контекстах правоохоронної галузі.

Близько 3000 сліпих порівнянь

Дослідження запрошує 16 професорів з 14 правничих шкіл США, зокрема Стенфордського, Єльського, Університету Нью-Йорка, Чиказького університету, Університету Джорджтауна, UCLA та Університету Вірджинії. Усі 40 питань охоплюють принципи договорного права, прецеденти, гіпотетичні випадки та політичні дискусії.

У 2 918 сліпих порівняннях оцінювачі-професори мали вибрати відповідь, яку вони би більше хотіли, щоб студенти використовували. Результати показали, що Google Gemini 2.5 Pro виграв у порівнянні з людськими відповідями у 75,92% випадків, а NotebookLM — у 74,75%.

Усі типи завдань мають перевагу

Дослідження показує, що ШІ перевершує людські відповіді у різних типах завдань, включаючи пам’ятні питання, пов’язані з прецедентами, законодавством та правовими принципами, а також гіпотетичний аналіз та політичні дискусії. Дослідники також перевірили, чи не є судження викладачів просто особистими уподобаннями, і виявили, що ступінь узгодженості вищий за випадковий рівень.

Щоб виключити можливість, що це лише більш витончений стиль, команда додатково проаналізувала такі характеристики, як довжина відповіді, структура, глибина міркувань, правова база, тон, ясність і навчальна підтримка. Дослідження вважає, що ці поверхневі фактори не можуть повністю пояснити перевагу професора до відповідей штучного інтелекту.

Мітки шкідливого контенту зменшені

Це дослідження також порівняло частку відповідей, позначених як шкідливі: у Gemini цей показник становив 3,41%, у NotebookLM — 3,64%, а у рукотворних відповідей — 12,06%. У іншій групі додаткових порівнянь моделей перше місце посів Claude Opus 4.7 від Anthropic, за ним слідував ChatGPT 5.4 від OpenAI.

Однак дослідження також вказує, що цей тест не вимірював, чи відповіді відповідають індивідуальним навчальним уподобанням кожного професора. Тому відповіді ШІ можуть бути загальноприйнятими, але не обов’язково точно відповідати стилю викладання певного викладача.

Юридична галузь все ще оцінює темпи впровадження

На тлі цього дослідження суди, юридичні фірми та юридичні школи все ще обговорюють, як штучний інтелект має ввійти до юридичних робочих процесів. Прихильники вважають, що ШІ може підвищити ефективність юридичних послуг і стане одним із базових інструментів майбутніх юридичних посад.

Проте юридична галузь залишається настороженою щодо проблеми ілюзій ШІ. У доповіді зазначається, що у квітні цього року юридична фірма Sullivan & Cromwell признавалася перед банкрутом США, що в одному зі своїх документів з’явилися фальшиві цитати, згенеровані ШІ.