スタンフォード大学の研究：AIの法的推論が盲検テストで法学教授を上回る

CoinGapeが報道：

スタンフォード大学が主導した研究によると、契約法の推論タスクにおいて、法学教授は同僚が作成したバージョンよりもAIが生成した回答をより頻繁に選択した。研究チームは、これは大規模言語モデルが一部の専門分野において、法律分野の一般的な評価基準に近づいていることを示していると考察している。

約3,000回のブラインド比較

研究の出題には、スタンフォード、イェール、ニューヨーク大学、シカゴ大学、ジョージタウン大学、UCLA、バージニア大学など、米国14の法科大学院から16名の教授が参加しました。問題は40問で、契約法の原則、判例、仮定問題、政策討論をカバーしています。

2918回のブラインド比較において、審査教授は2つの匿名回答から、学生に使用させたい方を選択しました。その結果、GoogleのGemini 2.5 Proは人間の回答と比較して75.92%の勝率を記録し、NotebookLMは74.75%の勝率でした。

複数の問題形式で優位

研究によると、AIは判例、法条、法律原則に関する記憶型問題だけでなく、仮定分析や政策討論などにもわたる複数の問題形式で人間の回答を上回っている。研究者らは教授間の判断が個人的な好みにすぎないかどうかを検証し、その一貫性がランダムレベルを上回ることを確認した。

より洗練された文体の可能性を排除するため、チームは回答の長さ、構造、推論の詳細度、法的根拠、語調、明確さ、教育的支援性などの特性をさらに分析した。研究によると、これらの表面的な要因だけでは、教授がAIの回答を好む理由を完全に説明できない。

有害コンテンツのマークが減少

この研究は、有害とマークされた回答の割合も比較しました。Geminiの割合は3.41％、NotebookLMは3.64％、人間による回答は12.06％でした。別の追加モデル比較では、AnthropicのClaude Opus 4.7が1位、OpenAIのChatGPT 5.4がそれに続きました。

しかし、この研究は、テストが各教授の個別の教学スタイルや好みに応じた回答の妥当性を評価していないことを示唆しています。したがって、AIの回答は一般的には受け入れられても、特定の教師の授業スタイルに正確に合致するとは限りません。

法律業界は導入のペースを検討中です。

この研究が発表された際、裁判所、法律事務所、法科大学院は、AIが法律のワークフローにどのように導入されるべきかについて議論を続けています。賛成派は、AIが法律サービスの効率を向上させ、将来の法律職における基盤ツールの一つとなると考えています。

しかし、法律業界はAIの幻覚問題に対して依然として警戒を緩めていない。報道によると、今年4月、Sullivan & Cromwell法律事務所は、自らの提出文書にAIが生成した偽の引用が含まれていたことを米破産裁判所に認めた。