史丹佛大學研究：AI 法律推理在盲測中表現優於法律教授

幣界網報導：

由史丹福大學領銜的一項研究顯示，在合約法推理任務中，法學教授更常選擇 AI 生成的答案，而非同行撰寫的版本。研究團隊認為，這表明大型語言模型在部分專業場景中，已能貼近法律學科的常見評價標準。

近 3,000 次盲測比較

研究邀請了來自美國 14 所法學院的 16 名教授參與出題，學校包括史丹福、耶魯、紐約大學、芝加哥大學、喬治城大學、UCLA 和維吉尼亞大學等。題目共 40 道，涵蓋契約法原則、判例、假設題和政策討論。

在 2918 次盲測比較中，評審教授需要從兩份匿名答案中選出更願意給學生使用的一份。結果顯示，Google 的 Gemini 2.5 Pro 在與人工答案的對比中勝出 75.92%，NotebookLM 的勝率為 74.75%。

多種題型均佔優勢

研究顯示，AI 在多種題型上均優於人工答案，包括涉及判例、法條和法律原則的記憶型問題，以及假設分析和政策討論。研究人員還檢驗了教授之間的判斷是否僅為個人偏好，結果顯示其一致性高於隨機水平。

為排除僅僅是文風更工整的可能性，團隊進一步分析了答案長度、結構、推理細緻程度、法律依據、語氣、清晰度和教學支持性等特徵。研究認為，這些表面因素不足以完全解釋教授對 AI 答案的偏好。

減少有害內容標記

這項研究還比較了被標記為有害的答案比例。Gemini 的相關比例為 3.41%，NotebookLM 為 3.64%，而人工答案為 12.06%。在另一組額外模型比較中，Anthropic 的 Claude Opus 4.7 排名第 1 名，OpenAI 的 ChatGPT 5.4 緊隨其後。

不過，研究也提示，這項測試並未衡量答案是否符合每位教授各自的教学偏好。因此，AI 答案可能是普遍可接受，但未必能精準貼合某一位教師的授課方式。

法律行業仍在權衡採用節奏

這項研究發布之際，法院、律所和法學院仍在討論 AI 應如何進入法律工作流程。支持者認為，AI 可以提升法律服務效率，也會成為未來法律崗位的基礎工具之一。

但法律行業對 AI 幻覺問題仍保持警惕。報導提到，今年 4 月，律師事務所 Sullivan & Cromwell 曾向美國破產法院承認，其一份文件中出現了由 AI 生成的虛假引文。