Sebuah penelitian yang dipimpin oleh Universitas Stanford menunjukkan bahwa dalam tugas penalaran hukum kontrak, para profesor hukum lebih sering memilih jawaban yang dihasilkan oleh AI daripada versi yang ditulis oleh rekan sejawat. Tim peneliti berpendapat bahwa ini menunjukkan bahwa model bahasa besar telah mampu mendekati standar evaluasi umum dalam disiplin hukum pada beberapa skenario profesional.
Ribu kali perbandingan blind test
Penelitian mengundang 16 profesor dari 14 sekolah hukum di Amerika Serikat untuk menyusun soal, termasuk Stanford, Yale, New York University, University of Chicago, Georgetown University, UCLA, dan University of Virginia. Soal terdiri dari 40 butir yang mencakup prinsip hukum kontrak, yurisprudensi, soal hipotetis, dan diskusi kebijakan.
Dalam 2.918 perbandingan blind test, para profesor penilai harus memilih satu dari dua jawaban anonim yang lebih ingin mereka berikan kepada siswa. Hasilnya, Google Gemini 2.5 Pro menang 75,92% dibandingkan jawaban manusia, sedangkan NotebookLM menang 74,75%.
Berbagai jenis soal semuanya unggul
Penelitian menunjukkan bahwa AI unggul dibanding jawaban manusia pada berbagai jenis soal, termasuk pertanyaan memori yang melibatkan yurisprudensi, ketentuan hukum, dan prinsip hukum, serta analisis hipotetis dan diskusi kebijakan. Peneliti juga memeriksa apakah penilaian antar dosen hanya bersifat preferensi pribadi, dan hasilnya menunjukkan konsistensi di atas tingkat acak.
Untuk menghilangkan kemungkinan bahwa preferensi hanya disebabkan oleh gaya penulisan yang lebih rapi, tim melakukan analisis lebih lanjut terhadap fitur-fitur seperti panjang jawaban, struktur, tingkat kedalaman penalaran, dasar hukum, nada, kejelasan, dan dukungan pedagogis. Penelitian menyimpulkan bahwa faktor-faktor permukaan ini tidak cukup untuk menjelaskan sepenuhnya preferensi profesor terhadap jawaban AI.
Lebih sedikit tanda konten berbahaya
Penelitian ini juga membandingkan proporsi jawaban yang ditandai sebagai berbahaya. Proporsi terkait Gemini adalah 3,41%, NotebookLM adalah 3,64%, sedangkan jawaban manusia adalah 12,06%. Dalam kelompok perbandingan model tambahan lainnya, Claude Opus 4.7 dari Anthropic berada di peringkat pertama, diikuti oleh ChatGPT 5.4 dari OpenAI.
Namun, penelitian juga menunjukkan bahwa tes ini tidak mengukur apakah jawaban sesuai dengan preferensi mengajar masing-masing dosen. Oleh karena itu, jawaban AI mungkin secara umum dapat diterima, tetapi belum tentu secara tepat sesuai dengan gaya mengajar satu dosen tertentu.
Industri hukum masih menimbang kecepatan adopsi
Penelitian ini dirilis saat pengadilan, kantor hukum, dan sekolah hukum masih membahas bagaimana AI seharusnya masuk ke dalam alur kerja hukum. Para pendukung berpendapat bahwa AI dapat meningkatkan efisiensi layanan hukum dan akan menjadi salah satu alat dasar untuk pekerjaan hukum di masa depan.
Namun, industri hukum tetap waspada terhadap masalah ilusi AI. Laporan tersebut menyebutkan bahwa pada April tahun ini, firma hukum Sullivan & Cromwell mengakui kepada pengadilan kebangkrutan Amerika Serikat bahwa sebuah dokumen mereka berisi kutipan palsu yang dihasilkan oleh AI.
