การศึกษาจากสแตนฟอร์ด: การให้เหตุผลทางกฎหมายด้วยปัญญาประดิษฐ์ทำได้ดีกว่าศาสตราจารย์กฎหมายในการทดสอบแบบไม่รู้ตัว

CoinDesk รายงาน:

การวิจัยที่นำโดยมหาวิทยาลัยสแตนฟอร์ดแสดงให้เห็นว่าในภารกิจการให้เหตุผลด้านกฎหมายสัญญา ศาสตราจารย์ด้านกฎหมายมักเลือกคำตอบที่สร้างโดย AI มากกว่าเวอร์ชันที่เขียนโดยเพื่อนร่วมวิชาชีพ ทีมวิจัยเชื่อว่านี่บ่งชี้ว่าโมเดลภาษาขนาดใหญ่ในบางบริบทเฉพาะทาง ได้สามารถเข้าใกล้มาตรฐานการประเมินที่พบบ่อยในสาขากฎหมาย

การเปรียบเทียบแบบไม่รู้ข้อมูลประมาณ 3,000 ครั้ง

การวิจัยเชิญศาสตราจารย์ 16 ท่านจากสถาบันกฎหมาย 14 แห่งในสหรัฐอเมริกาเข้าร่วมออกข้อสอบ ได้แก่ สแตนฟอร์ด เยล มหาวิทยาลัยนิวยอร์ก มหาวิทยาลัยชิคาโก มหาวิทยาลัยจอร์จทาวน์ UCLA และมหาวิทยาลัยเวอร์จิเนีย เป็นต้น ข้อสอบมีทั้งหมด 40 ข้อ ครอบคลุมหลักการสัญญา คำพิพากษา คำถามสมมติ และการอภิปรายเชิงนโยบาย

ในการเปรียบเทียบแบบไม่รู้ตัวทั้งหมด 2,918 ครั้ง ศาสตราจารย์ผู้พิจารณาต้องเลือกคำตอบหนึ่งในสองคำตอบที่ไม่เปิดเผยตัวตนว่าต้องการให้นักเรียนใช้ ผลลัพธ์แสดงว่า Google Gemini 2.5 Pro ชนะคำตอบจากมนุษย์ร้อยละ 75.92 ในขณะที่ NotebookLM มีอัตราการชนะร้อยละ 74.75

มีข้อได้เปรียบในหลายรูปแบบของคำถาม

การวิจัยพบว่า AI ทำได้ดีกว่าคำตอบของมนุษย์ในหลายประเภทของคำถาม รวมถึงคำถามที่ต้องใช้ความจำเกี่ยวกับคดีตัวอย่าง กฎหมาย และหลักการทางกฎหมาย รวมถึงการวิเคราะห์สมมติฐานและการอภิปรายเชิงนโยบาย นอกจากนี้ นักวิจัยยังตรวจสอบว่าการตัดสินของอาจารย์เป็นเพียงความชอบส่วนตัวหรือไม่ ผลลัพธ์แสดงว่าความสอดคล้องสูงกว่าระดับสุ่ม

เพื่อแยกแยะความเป็นไปได้ที่ว่าความชอบของผู้สอนต่อคำตอบจาก AI เกิดจากสไตล์การเขียนที่เป็นระเบียบมากกว่า ทีมงานจึงวิเคราะห์เพิ่มเติมเกี่ยวกับคุณลักษณะอื่นๆ เช่น ความยาวของคำตอบ โครงสร้าง ระดับความละเอียดในการให้เหตุผล หลักฐานทางกฎหมาย น้ำเสียง ความชัดเจน และความสามารถในการสนับสนุนการเรียนรู้ การศึกษาชี้ว่าปัจจัยภายนอกเหล่านี้ไม่สามารถอธิบายความชอบของผู้สอนต่อคำตอบจาก AI ได้อย่างสมบูรณ์

มีการแจ้งเตือนเนื้อหาที่เป็นอันตรายน้อยลง

การศึกษานี้ยังเปรียบเทียบสัดส่วนของคำตอบที่ถูกทำเครื่องหมายว่าเป็นอันตราย โดย Gemini มีสัดส่วน 3.41% NotebookLM มี 3.64% ขณะที่คำตอบจากมนุษย์มี 12.06% ในกลุ่มเปรียบเทียบแบบจำลองเพิ่มเติมอีกชุดหนึ่ง Claude Opus 4.7 ของ Anthropic อยู่อันดับหนึ่ง ตามด้วย ChatGPT 5.4 ของ OpenAI

อย่างไรก็ตาม การศึกษานี้ยังชี้ให้เห็นว่าการทดสอบนี้ไม่ได้วัดว่าคำตอบสอดคล้องกับความชอบในการสอนของแต่ละศาสตราจารย์ ดังนั้น คำตอบจาก AI อาจได้รับการยอมรับในระดับทั่วไป แต่ไม่จำเป็นต้องตรงกับรูปแบบการสอนของครูแต่ละคนอย่างแม่นยำ

อุตสาหกรรมกฎหมายยังคงพิจารณาจังหวะการนำไปใช้

ในขณะที่ศาล สำนักงานทนายความ และวิทยาลัยกฎหมายยังคงอภิปรายเกี่ยวกับวิธีการที่ AI ควรเข้ามาในกระบวนการงานกฎหมาย การสนับสนุนเชื่อว่า AI สามารถเพิ่มประสิทธิภาพของบริการทางกฎหมาย และจะกลายเป็นเครื่องมือพื้นฐานหนึ่งสำหรับตำแหน่งงานกฎหมายในอนาคต

แต่ภาคกฎหมายยังคงระมัดระวังต่อปัญหาภาพหลอนของ AI รายงานระบุว่าเมื่อเดือนเมษายนที่ผ่านมา บริษัททนายความ Sullivan & Cromwell ได้ยอมรับต่อศาลล้มละลายของสหรัฐฯ ว่าเอกสารหนึ่งของพวกเขามีคำอ้างปลอมที่ถูกสร้างขึ้นโดย AI