Estudio de Stanford: El razonamiento legal de la IA supera a los profesores de derecho en pruebas ciegas

CoinDesk informa:

Un estudio liderado por la Universidad de Stanford mostró que, en tareas de razonamiento jurídico contractual, los profesores de derecho eligieron con más frecuencia las respuestas generadas por IA que las versiones escritas por sus pares. El equipo de investigación considera que esto indica que los modelos de lenguaje grande ya pueden acercarse a los criterios de evaluación comunes en la disciplina jurídica en ciertos escenarios profesionales.

Cerca de 3,000 comparaciones ciegas

Se invitó a 16 profesores de 14 facultades de derecho de Estados Unidos a participar en la creación de preguntas, incluyendo universidades como Stanford, Yale, Universidad de Nueva York, Universidad de Chicago, Universidad de Georgetown, UCLA y Universidad de Virginia. Las preguntas, en total 40, cubren principios de derecho contractual, jurisprudencia, casos hipotéticos y discusiones políticas.

En 2,918 comparaciones ciegas, los profesores evaluadores debían elegir entre dos respuestas anónimas cuál preferirían que los estudiantes utilizaran. Los resultados mostraron que Google Gemini 2.5 Pro superó las respuestas humanas en un 75.92%, mientras que NotebookLM obtuvo una tasa de victoria del 74.75%.

Tiene ventaja en múltiples tipos de preguntas

Un estudio revela que la IA supera las respuestas humanas en varios tipos de preguntas, incluidas las de memoria que involucran jurisprudencia, leyes y principios legales, así como análisis hipotéticos y discusiones de políticas. Los investigadores también examinaron si los juicios entre profesores eran meramente preferencias personales, y los resultados mostraron una coherencia superior al nivel aleatorio.

Para descartar la posibilidad de que solo se trate de un estilo más pulido, el equipo analizó adicionalmente características como la longitud de las respuestas, la estructura, el grado de detalle en el razonamiento, las bases legales, el tono, la claridad y el apoyo pedagógico. El estudio concluyó que estos factores superficiales no son suficientes para explicar completamente la preferencia del profesor por las respuestas de IA.

Menos marcas de contenido dañino

El estudio también comparó el porcentaje de respuestas marcadas como dañinas: Gemini tuvo un 3,41%, NotebookLM un 3,64% y las respuestas humanas un 12,06%. En otra serie de comparaciones adicionales de modelos, Claude Opus 4.7 de Anthropic ocupó el primer lugar, seguido por ChatGPT 5.4 de OpenAI.

Sin embargo, el estudio también indica que esta prueba no midió si las respuestas coincidían con las preferencias pedagógicas individuales de cada profesor. Por lo tanto, las respuestas de la IA podrían ser generalmente aceptables, pero no necesariamente ajustadas con precisión al estilo de enseñanza de un profesor en particular.

The legal industry is still weighing the pace of adoption.

En el momento en que se publica este estudio, los tribunales, bufetes de abogados y facultades de derecho aún discuten cómo debe integrarse la IA en los procesos legales. Los defensores argumentan que la IA puede aumentar la eficiencia de los servicios legales y se convertirá en una de las herramientas fundamentales para los puestos legales del futuro.

Pero el sector legal sigue siendo cauteloso respecto al problema de las ilusiones de IA. El informe menciona que en abril de este año, el bufete de abogados Sullivan & Cromwell reconoció ante la corte de quiebras de Estados Unidos que un documento suyo contenía citas falsas generadas por IA.