Studi Stanford: AI Mengungguli Dosen Hukum dalam QA Hukum Kontrak

Kelangkaan pendidikan hukum sedang berpindah dari "memberikan jawaban" ke "menilai jawaban".

Di ruang kuliah bertingkat fakultas hukum, cerita-cerita paling disukai sering kali tentang pertanyaan Socrates. Selama ini, inti pendidikan hukum dianggap sebagai suatu keterampilan yang sangat bergantung pada pengalaman manusia: mencari batas dalam ketidakjelasan, menimbang argumen yang bertentangan, dan melatih kemampuan penilaian dalam pertanyaan yang tampaknya tidak memiliki satu jawaban tunggal.

Namun, sebuah studi empiris terbaru dari Stanford Law School sedang memberikan jeda pada imajinasi ini.

Penelitian ini bukanlah tentang membuat AI mengikuti ujian sekolah hukum atau menulis pendapat hukum lengkap. Penelitian ini menguji skenario yang lebih spesifik dan lebih dekat dengan pengajaran sehari-hari: ketika mahasiswa hukum tahun pertama mengajukan pertanyaan setelah kelas hukum kontrak atau selama sesi tanya jawab, apakah jawaban singkat yang diberikan oleh AI akan lebih disukai oleh para profesor hukum dibandingkan jawaban yang ditulis oleh profesor hukum?

The answer is quite striking.

Satu: Tingkat kemenangan 75,33%: AI lebih disukai para profesor dalam penilaian buta anonim

Penelitian berjudul "Law Professors Prefer AI Over Peer Answers" ini didorong oleh profesor Stanford Law School, Julian Nyarko, dan Legal Innovation through Frontier Technology Lab (liftlab), dengan tim penulis yang juga mencakup para akademisi dari Yale, New York University, University of Chicago, dan institusi lainnya.

Tim peneliti mengundang 16 profesor hukum kontrak Amerika Serikat untuk merancang 40 pertanyaan representatif berdasarkan pertanyaan yang sering diajukan mahasiswa selama jam kantor dalam kursus hukum kontrak tingkat pertama. Selanjutnya, profesor manusia dan model bahasa besar menjawab pertanyaan-pertanyaan tersebut, lalu para profesor membandingkan jawaban secara anonim tanpa mengetahui sumber jawabannya.

Hasil menunjukkan bahwa dalam 2.918 perbandingan penilaian buta anonim, rata-rata tingkat kemenangan jawaban model bahasa besar mencapai 75,33%. Persentase yang dinilai memiliki misinformasi pendidikan adalah 12,06% untuk jawaban dosen manusia dan 3,53% untuk jawaban AI.

Data ini memiliki dampak kuat bukan karena AI menjawab benar beberapa pertanyaan konseptual dalam bidang pengetahuan hukum. Evaluasi AI sebelumnya sering berfokus pada poin-poin pengetahuan yang hitam-putih: benar itu benar, salah itu salah. Namun, bagian paling sulit dalam pendidikan hukum justru bukan pada menghafal aturan, melainkan bagaimana menafsirkan aturan, menerapkannya, dan menganalisis di antara dua argumen yang tampaknya sama-sama masuk akal. Eksperimen ini menguji apakah AI mampu menyentuh standar profesional yang halus namun ketat yang digunakan para ahli hukum untuk menilai kualitas argumen.

Dua: Pertarungan di Zona Abu-Abu: AI Menang karena Kejelasan, Struktur, dan Nuansa Pengajaran

Pertanyaan-pertanyaan ini memerlukan jawaban yang memahami fakta spesifik, mengenali kebingungan siswa, menerapkan aturan hukum abstrak ke situasi baru, dan menjelaskannya dengan cara yang sesuai untuk pengajaran.

Ini justru merupakan keunggulan manusia yang selama ini paling ditekankan dalam pendidikan hukum: bukan memberikan jawaban standar, tetapi membimbing siswa untuk membentuk jalur analisis. Oleh karena itu, kemenangan AI dalam skenario semacam ini tidaklah kecil.

Tim peneliti secara sengaja mengontrol panjang jawaban, format, dan struktur penulisan saat merancang eksperimen, untuk menghindari bias pada reviewer yang mungkin hanya karena jawaban AI lebih panjang, lebih rapi, atau gayanya lebih mirip "teks yang dihasilkan mesin". Pada tahap penilaian buta oleh manusia, penelitian ini terutama membandingkan Gemini 2.5 Pro dan Google NotebookLM berbasis casebook terkait. Makalah tersebut juga secara lebih lanjut melakukan evaluasi ekstensi terhadap lebih banyak model menggunakan metode LLM-as-judge.

Keunggulan AI bukan hanya "jumlah data banyak" atau "cepat menulis". Dalam eksperimen spesifik ini, AI lebih seperti menyentuh beberapa elemen yang disukai profesor hukum dalam bimbingan jawaban singkat: struktur jelas, penalaran konsisten, respons langsung terhadap pertanyaan, dan nada pengajaran stabil.

Profesor hukum tentu memiliki pengalaman dan keahlian penilaian yang lebih kaya dalam pengajaran sehari-hari, tetapi dalam skenario tanya jawab yang diringkas menjadi jawaban singkat ratusan kata, jawaban spontan manusia tidak selalu merupakan versi terbaik. AI justru unggul dalam memecah pertanyaan menjadi beberapa tingkatan, lalu menghasilkan jawaban yang jelas, dapat digunakan kembali, dan dengan fluktuasi emosional rendah.

Tiga, bukan mengganti profesor, tetapi mengubah fokus pekerjaan profesor

Of course, interpreting this study as "AI can replace law professors" is still an overinterpretation.

Batasan makalah sangat jelas: ia mengevaluasi sesi tanya jawab gaya office-hours berupa pertanyaan singkat dalam kursus hukum kontrak, bukan pengajaran kelas penuh, bukan bimbingan tesis, bukan penyelidikan fakta, bukan penilaian etika profesi, dan bukan kemampuan mewakili klien nyata.

Kinerja AI yang baik dalam penilaian anonim tidak berarti ia telah memiliki seluruh kemampuan dalam pendidikan hukum. Ia masih mungkin menghasilkan ilusi, menjadi terlalu percaya diri, atau menyesatkan siswa ketika kekurangan konteks. Lebih penting lagi, tujuan pendidikan hukum bukan hanya membuat siswa “mendapatkan jawaban yang tampak bagus,” tetapi mengajarkan siswa bagaimana meragukan jawaban, menganalisis jawaban, dan membangun kembali jawaban.

Ini justru adalah tempat di mana profesor masih tak tergantikan.

Namun penelitian ini juga mengingatkan fakultas hukum agar tidak lagi menggunakan “hukum terlalu kompleks, AI tidak bisa menilai” sebagai zona nyaman. Setidaknya dalam sebagian skenario pengajaran sehari-hari, AI sudah mampu menghasilkan penjelasan yang cukup jelas, cukup terstruktur, bahkan lebih disukai oleh rekan-rekan dosen.

Masalah kunci di masa depan mungkin bukan lagi "Apakah AI bisa menjawab soal?", tetapi "Bagaimana fakultas hukum mengintegrasikan AI ke dalam desain pembelajaran?" AI dapat menjadi interpreter pertama untuk persiapan pra-kelas siswa, alat bantu untuk sesi tanya jawab pasca-kelas, atau digunakan untuk melatih siswa dalam membedakan kelebihan dan kekurangan berbagai jawaban. Kelas yang benar-benar bernilai mungkin akan berpindah dari "dosen menyampaikan jawaban" menjadi "dosen memimpin siswa dalam menghakimi jawaban".

Empat, parit perlindungan pendidikan hukum sedang berpindah dari jawaban ke penilaian

Yang paling menarik dari penelitian ini adalah bahwa ia mengungkapkan sebagian kemampuan dalam pendidikan hukum yang sebelumnya dianggap langka, sedang mengalami penilaian ulang—penjelasan aturan hukum, analogi kasus, argumen awal, dan jawaban atas pertanyaan di kelas—kemampuan-kemampuan ini dulunya sangat bergantung pada pengalaman pribadi dosen. Kini, AI mampu menghasilkan versi yang cukup baik secara stabil dalam skenario tertentu.

Nilai seorang guru karena itu tidak akan hilang, tetapi akan dipaksa bergerak ke atas: dari menyediakan jawaban beralih ke merancang pertanyaan; dari menjelaskan aturan beralih ke melatih penilaian; dari memperbaiki kesalahan beralih ke membantu siswa mengenali argumen yang “terdengar benar tetapi tetap mencurigakan”.

Ini belum tentu buruk bagi pendidikan hukum. Sebaliknya, hal ini mungkin memaksa fakultas hukum untuk kembali menghadapi masalah yang telah lama diabaikan: jika AI dapat memberikan penjelasan awal yang jelas, lalu apa yang benar-benar layak bagi dosen manusia untuk diinvestasikan waktunya di kelas? Jawabannya mungkin adalah fakta yang lebih kompleks, konflik yang lebih nyata, penilaian nilai yang lebih sulit distandarkan, serta pelatihan kritis yang lebih ketat.

AI dalam sesi tanya jawab hukum kontrak mengalahkan profesor, bukan berarti profesor kehilangan maknanya. Ini berarti kelangkaan pendidikan hukum sedang berpindah: dari “siapa yang bisa menyebutkan jawabannya”, beralih ke “siapa yang bisa menilai apakah jawabannya cukup baik”.

Reference materials

Ashe, S. (2026, 1 Juni). AI mengungguli profesor hukum dalam studi hukum Stanford. Stanford Law School.

Salinas, A., Frieders, C., Guha, N., Ma, S., Sanga, S., Nyarko, J., et al. Profesor Hukum Lebih Memilih AI Daripada Jawaban Rekan. Stanford Law School / liftlab, 2026.