Stanford Çalışması: AI Hukuki Muhakeme, Kör Testlerde Hukuk Profesörlerini Aşıyor

CoinDesk tarafından rapor edildi:

Stanford Üniversitesi öncülüğünde yapılan bir araştırma, sözleşme hukuku mantık görevlerinde hukuk profesörlerinin meslektaşları tarafından yazılan versiyonlardan daha sık AI tarafından üretilen cevapları tercih ettiğini gösterdi. Araştırma ekibi, bu durumun büyük dil modellerinin bazı profesyonel senaryolarda hukuk disiplininin yaygın değerlendirme kriterlerine yaklaşabildiğini gösterdiğini düşündü.

Yaklaşık 3.000 adet gizli karşılaştırma

Amerika Birleşik Devletleri'nden 14 hukuk fakültesinden 16 profesör, 40 soruluk bir dizi soru hazırlamak için davet edildi; bu fakülteler arasında Stanford, Yale, New York Üniversitesi, Chicago Üniversitesi, Georgetown Üniversitesi, UCLA ve Virginia Üniversitesi yer alıyor. Sorular, sözleşmeler hukuku ilkelerini, dava öncüllerini, varsayımsal senaryoları ve politika tartışmalarını kapsıyor.

2918 adet çift-kör karşılaştırmada, değerlendirme profesörleri, iki anonim cevaptan öğrencilere daha çok tercih edilecek olanı seçmek zorunda kaldı. Sonuçlar, Google'ın Gemini 2.5 Pro'nun insan cevaplarıyla karşılaştırıldığında %75,92 kazanma oranı ile üstünlük sağladığını, NotebookLM'in ise %74,75 kazanma oranı ile geldiğini gösterdi.

Çeşitli soru tiplerinde üstünlük sağlıyor

Bir araştırma, yapay zekânın örnek olaylar, yasal hükümler ve hukuki ilkeleri içeren hafıza temelli soruların yanı sıra varsayımsal analizler ve politika tartışmaları gibi sorular üzerinde insan cevaplarından daha iyi performans gösterdiğini ortaya koydu. Araştırmacılar, öğretim üyesi arasındaki yargıların sadece bireysel tercihler olup olmadığını da inceledi ve tutarlılığın rastgele seviyenin üzerinde olduğunu gösterdi.

Daha sade bir üslup olma olasılığını dışlamak için, ekip cevapların uzunluğunu, yapısını, çıkarım detayını, yasal dayanaklarını, tonunu, netliğini ve öğretici destekleyiciliğini de analiz etti. Araştırma, bu yüzeysel faktörlerin, profesörün AI cevaplarına olan tercihini tamamen açıklamak için yeterli olmadığını belirledi.

Daha az zararlı içerik işaretleme

Araştırma, cevapların zararlı olarak işaretlenme oranını da karşılaştırdı. Gemini için bu oran %3,41, NotebookLM için %3,64, insan cevapları ise %12,06. Başka bir ek model karşılaştırmasında, Anthropic'in Claude Opus 4.7 birinci sırada, OpenAI'nin ChatGPT 5.4 ise ikinci sırada yer aldı.

Ancak araştırma, bu testin cevapların her bir profesörün kendi öğretim tercihleriyle uyumlu olup olmadığını ölçmediğini de göstermektedir. Bu nedenle AI cevapları genel olarak kabul edilebilir olabilir, ancak belirli bir öğretmenin ders anlatım tarzına tam olarak uygun olmayabilir.

Hukuk sektörü hâlâ benimseme hızını değerlendiriyor.

Bu araştırma, mahkemeler, avukatlık firmaları ve hukuk fakültelerinin hâlâ AI'nın hukuki iş akışlarına nasıl entegre edileceğini tartıştığı bir dönemde yayımlanmıştır. Destekçiler, AI'nın hukuki hizmetlerin verimliliğini artırabileceğini ve geleceğin hukuki pozisyonlarının temel araçlarından biri olacağını savunmaktadır.

Ancak hukuk sektörü, AI hayal kırıklığı sorununa hâlâ dikkatli yaklaşıyor. Haberde, bu yıl Nisan ayında Sullivan & Cromwell avukatlık firmasının, bir belgesinde AI tarafından oluşturulan sahte alıntılar bulunduğunu ABD iflas mahkemesine itiraf ettiği belirtildi.