由史丹福大學領銜的一項研究顯示,在合約法推理任務中,法學教授更常選擇 AI 生成的答案,而非同行撰寫的版本。研究團隊認為,這表明大型語言模型在部分專業場景中,已能貼近法律學科的常見評價標準。
近 3,000 次盲測比較
研究邀請了來自美國 14 所法學院的 16 名教授參與出題,學校包括史丹福、耶魯、紐約大學、芝加哥大學、喬治城大學、UCLA 和維吉尼亞大學等。題目共 40 道,涵蓋契約法原則、判例、假設題和政策討論。
在 2918 次盲測比較中,評審教授需要從兩份匿名答案中選出更願意給學生使用的一份。結果顯示,Google 的 Gemini 2.5 Pro 在與人工答案的對比中勝出 75.92%,NotebookLM 的勝率為 74.75%。
多種題型均佔優勢
研究顯示,AI 在多種題型上均優於人工答案,包括涉及判例、法條和法律原則的記憶型問題,以及假設分析和政策討論。研究人員還檢驗了教授之間的判斷是否僅為個人偏好,結果顯示其一致性高於隨機水平。
為排除僅僅是文風更工整的可能性,團隊進一步分析了答案長度、結構、推理細緻程度、法律依據、語氣、清晰度和教學支持性等特徵。研究認為,這些表面因素不足以完全解釋教授對 AI 答案的偏好。
減少有害內容標記
這項研究還比較了被標記為有害的答案比例。Gemini 的相關比例為 3.41%,NotebookLM 為 3.64%,而人工答案為 12.06%。在另一組額外模型比較中,Anthropic 的 Claude Opus 4.7 排名第 1 名,OpenAI 的 ChatGPT 5.4 緊隨其後。
不過,研究也提示,這項測試並未衡量答案是否符合每位教授各自的教学偏好。因此,AI 答案可能是普遍可接受,但未必能精準貼合某一位教師的授課方式。
法律行業仍在權衡採用節奏
這項研究發布之際,法院、律所和法學院仍在討論 AI 應如何進入法律工作流程。支持者認為,AI 可以提升法律服務效率,也會成為未來法律崗位的基礎工具之一。
但法律行業對 AI 幻覺問題仍保持警惕。報導提到,今年 4 月,律師事務所 Sullivan & Cromwell 曾向美國破產法院承認,其一份文件中出現了由 AI 生成的虛假引文。
