史丹佛大學研究:AI 法律推理在盲測中表現優於法律教授

icon币界网
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
由史丹佛大學主導的研究發現,在盲測中,AI 的法律推理表現優於法律教授,AI 答案在 75.92% 的情況下更受青睞。十六位教授評估了 2,918 組比較,在判例法、政策和假設情境中均傾向於選擇 AI。AI 的回應也被標記為有害的次數較少。MiCA(歐盟加密資產市場監管框架)可能影響 AI 工具在流動性和加密市場中的應用。由於 AI 幻覺問題,法律事務所仍保持謹慎態度,近期一樁破產法院事件即為例證。
幣界網報導:

由史丹福大學領銜的一項研究顯示,在合約法推理任務中,法學教授更常選擇 AI 生成的答案,而非同行撰寫的版本。研究團隊認為,這表明大型語言模型在部分專業場景中,已能貼近法律學科的常見評價標準。

近 3,000 次盲測比較

研究邀請了來自美國 14 所法學院的 16 名教授參與出題,學校包括史丹福、耶魯、紐約大學、芝加哥大學、喬治城大學、UCLA 和維吉尼亞大學等。題目共 40 道,涵蓋契約法原則、判例、假設題和政策討論。

在 2918 次盲測比較中,評審教授需要從兩份匿名答案中選出更願意給學生使用的一份。結果顯示,Google 的 Gemini 2.5 Pro 在與人工答案的對比中勝出 75.92%,NotebookLM 的勝率為 74.75%。

多種題型均佔優勢

研究顯示,AI 在多種題型上均優於人工答案,包括涉及判例、法條和法律原則的記憶型問題,以及假設分析和政策討論。研究人員還檢驗了教授之間的判斷是否僅為個人偏好,結果顯示其一致性高於隨機水平。

為排除僅僅是文風更工整的可能性,團隊進一步分析了答案長度、結構、推理細緻程度、法律依據、語氣、清晰度和教學支持性等特徵。研究認為,這些表面因素不足以完全解釋教授對 AI 答案的偏好。

減少有害內容標記

這項研究還比較了被標記為有害的答案比例。Gemini 的相關比例為 3.41%,NotebookLM 為 3.64%,而人工答案為 12.06%。在另一組額外模型比較中,Anthropic 的 Claude Opus 4.7 排名第 1 名,OpenAI 的 ChatGPT 5.4 緊隨其後。

不過,研究也提示,這項測試並未衡量答案是否符合每位教授各自的教学偏好。因此,AI 答案可能是普遍可接受,但未必能精準貼合某一位教師的授課方式。

法律行業仍在權衡採用節奏

這項研究發布之際,法院、律所和法學院仍在討論 AI 應如何進入法律工作流程。支持者認為,AI 可以提升法律服務效率,也會成為未來法律崗位的基礎工具之一。

但法律行業對 AI 幻覺問題仍保持警惕。報導提到,今年 4 月,律師事務所 Sullivan & Cromwell 曾向美國破產法院承認,其一份文件中出現了由 AI 生成的虛假引文。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露