Дослідження Стенфордського університету виявило, що «юристи» на основі ШІ перевершують професорів у правовому міркуванні

Заголовок: Дослідження виявило, що AI «юристи» обігнали професорів права у правовому міркуванні — попередження для криптовалютних компаній та регуляторів Нове дослідження, проведене Стенфордом, виявило, що сучасні великі мовні моделі (LLM) не лише добре відповідають на правові запитання — професори права віддавали перевагу відповідям штучного інтелекту над відповідями своїх колег у трьох із чотирьох випадків. Цей результат викликає нові питання для галузей, які залежать від швидкого та точного правового міркування — зокрема, криптовалютних компаній, які стикаються зі складними та змінними регуляторними вимогами. Як проводився тест: - Шістнадцять професорів з 14 американських юридичних шкіл (зокрема Стенфорд, Єль, NYU, Чикаго, Джорджтаун, UCLA та UVA) розробили 40 запитань з права договорів, що охоплювали доктрини, відтворення прецедентів, гіпотетичні ситуації та політичні питання. Дослідники вважали право складнішим тестом судження, ніж багато інших галузей з «однією правильну відповіддю», оскільки воно вимагає оцінювання невизначеності та досягнення обґрунтованих висновків. - У 2 918 слепих парних порівняннях професори вибирали, яку відповідь вони б надали студенту: написану людиною-викладачем чи згенеровану LLM. Ключові результати: - Google Gemini 2.5 Pro був обраний у 75,92% порівнянь проти людських викладачів; Google NotebookLM переможував у 74,75% порівнянь. Загалом, відповіді штучного інтелекту переважали у приблизно трьох із чотирьох порівнянь. - Моделі штучного інтелекту перевершили людських викладачів у різних типах запитань: відтворення (прецеденти, код, доктрина), гіпотетичні ситуації та аналіз політики. - Щоб виключити упередження через стиль, дослідники проаналізували лексико-синтаксичні характеристики — довжину, структуру, нюанси, правову термінологію, тон, ясність та навчальні підказки — і виявили, що ці поверхневі ознаки не пояснюють повністю перевагу LLM. - Відповіді штучного інтелекту також розглядалися як шкодливі значно рідше, ніж відповіді професорів у цьому дослідженні: Gemini 2.5 Pro — 3,41% шкодливості, NotebookLM — 3,64%, поруч з 12,06% у людських відповідей. - У більш широкому порівнянні моделей Anthropic Claude Opus 4.7 посів перше місце, за ним слідували OpenAI ChatGPT 5.4 та Gemini 2.5 Pro. Кожна оцінена модель штучного інтелекту в середньому перевершила людських викладачів. Що кажуть дослідники (та попереджають): - Автори зазначають, що збіг між професорами перевищував те, що очікувалося при випадковому виборі, що свідчить про те, що відповіді LLM відповідають загальним дисциплінарним критеріям, а не індивідуальним смакам. - Але вони також попереджають, що дослідження не вимірювало, чи збігаються відповіді LLM із особистими навчальними перевагами окремих професорів. Можливо, вони є «загальноприйнятими», але не адаптованими до конкретного погляду викладача. Практичний контекст та ризики: - Дослідження з’являється на тлі зростаючого впровадження AI судами, юридичними фірмами та юридичними школами. Суд першої інстанції Лос-Анджелеса тестує інструменти AI для допомоги суддям у керуваннї навантаженням справами, а юридичні школи інтегрують AI-навчання до навчальних програм. - Однак технологія залишається несовершенна. Юридичні фірми продовжують стикатися з реальними наслідками галюцинацій AI: у квітні Sullivan & Cromwell признав перед банкрутським судом США, що недавнє подання мiстило фальшиве цитування, згенероване AI. Чому це важливо для криптовалютної аудиторії: - Криптовалютнi компанiї стикаються з великою кiлькiстю питань щодо договорiв, дотримання норм та регулювання — вiд класифiкацiї токенiв та цiнних паперiв до спорiв щодо розумних контрактiв та обов’язкiв AML. Якщо LLM можуть надавати надйомнi правовi пояснення та складати документи, це може швидко змiнити спосiб роботи юридичних команд у криптовалютнiй галузi. - Переваги: швидше складання та перевiрка договорiв, масштабування рекомендацiй щодо дотримання норм та доступ до правового мiркування за нижчими витратами для стартапiв та DAO. - Ризики: галюцинацiї, неточне цитування та вiдповiдi, якi «достатньо хорошi», але не враховують регiональнi нюанси чи ризик-профiль органiзацiї. Погана правова порада може бути дуже дорогoю у дуже регульованих або чутливих до прецедентiв галузях. Висновок: Експеримент Стенфорду показує, що сучаснi LLM — це не просто дивакуватий трюк — вони вже конкурують з людськими викладачами права та часто переважають їх у багатьох завданнях правового мiркування. Для криптовалютних компанiй, регуляторiв та юристiв це означає величезний потенцiал ефективностi, але також нову потребу у перевiрцi, походженнi та заходах безпеки перед застосуванням правового мiркування, згенерованого AI.