Isang pag-aaral na pinangunahan ng Stanford University ay nagpakita na sa mga gawain sa pag-iisip ng batas kontrata, mas madalas na pinili ng mga propesor ng batas ang mga sagot na nilikha ng AI kaysa sa mga bersyon na isinulat ng kanilang mga kapwa. Naniniwala ang team ng pag-aaral na ito ay nagpapakita na ang mga malalaking modelo ng wika ay nakakamit na ang pagkakatulad sa karaniwang mga pamantayan sa pagtataya sa larangan ng batas.
Higit sa tatlong libong beses na blind test comparison
Kinikilala ang pagtawag sa pag-aaral sa 16 na propesor mula sa 14 na paaralan ng batas sa Estados Unidos, kabilang ang Stanford, Yale, New York University, University of Chicago, Georgetown University, UCLA, at University of Virginia. Ang 40 tanong ay sumasakop sa mga prinsipyo ng batas ng kontrata, mga kaso, mga hipotesis, at diskusyon sa patakaran.
Sa 2,918 na blind comparison, kailangan ng mga评鉴 professor na pumili ng isang mas gusto nilang ibigay sa mga estudyante mula sa dalawang anonymous na sagot. Ang resulta ay ipinakita na ang Google's Gemini 2.5 Pro ay nanalo sa 75.92% ng pagkakataon kumpara sa mga tao, habang ang NotebookLM ay may 74.75% na rate ng panalo.
Lahat ng uri ng tanong ay may kapansanan
Ayon sa pag-aaral, mas mahusay ang AI kaysa sa mga sagot na tao sa iba’t ibang uri ng tanong, kabilang ang mga memory-based na tanong na may kaugnayan sa mga kaso, batas, at prinsipyo ng batas, pati na rin ang mga hypothesis analysis at diskusyon sa patakaran. Tinitiyak din ng mga mananaliksik kung ang paghuhusga ng mga guro ay nagmumula lamang sa personal na pagkakasundo, at ang mga resulta ay ipinakita ang mas mataas na pagkakasundo kaysa sa random level.
Upang matiyak na hindi lamang dahil sa mas maayos na istilo, pinag-aralan ng team ang haba ng sagot, istruktura, antas ng detalye sa pag-iisip, batayang legal, tono, kalinawan, at suporta sa pagtuturo. Naniniwala ang pag-aaral na hindi sapat ang mga pangunahing salik na ito upang buong-pusong ipaliwanag ang pagkakapreferensya ng propesor sa mga sagot ng AI.
Mas maliit ang mga marka ng nakakasamang nilalaman
Kumukumpara rin ang pag-aaral sa proporsyon ng mga sagot na itinuturing na mapanganib. Ang kaukulang proporsyon para sa Gemini ay 3.41%, para sa NotebookLM ay 3.64%, habang ang mga sagot na tao ay 12.06%. Sa isang karagdagang grupo ng pagkukumpara ng mga modelo, ang Claude Opus 4.7 ng Anthropic ay nasa unang lugar, kasunod ng ChatGPT 5.4 ng OpenAI.
Gayunpaman, ang pag-aaral ay nagpapahiwatig na ang pagsubok na ito ay hindi sinusukat kung ang mga sagot ay sumasalungat sa sariling mga pagkakataon ng bawat guro. Kaya, ang mga sagot ng AI ay maaaring pangkalahatang tanggapin, ngunit hindi kinakailangang tumpak na sumasalamin sa paraan ng pagtuturo ng isang tiyak na guro.
Ang legal industry ay patuloy na nagtatalakay sa ritmo ng pagtatangkilik.
Sa panahon ng paglabas ng pag-aaral na ito, ang mga korte, law firm, at mga paaralan ng batas ay patuloy na nag-uusap kung paano dapat pumasok ang AI sa mga proseso ng batas. Ang mga tagasuporta ay naniniwala na ang AI ay maaaring palakasin ang kahusayan ng serbisyo sa batas at maging isa sa mga pangunahing kasangkapan sa mga trabaho sa batas sa hinaharap.
Ngunit nananatiling mapanatag ang legal na industriya sa pagkakaroon ng AI hallucinations. Binanggit ng ulat na noong Abril ng taong ito, tinanggap ng law firm na Sullivan & Cromwell sa US Bankruptcy Court na may mga maling kuwento na ginawa ng AI sa isang dokumento nito.
