Étude de Stanford : l'IA surpasse les professeurs de droit en QCM sur le droit des contrats

La rareté de l'éducation juridique pousse à passer de « donner des réponses » à « évaluer les réponses ».

Dans l’amphithéâtre de la faculté de droit, ce qui est le plus souvent évoqué, ce sont les légendes autour de la méthode socratique. Depuis longtemps, l’essence de l’enseignement juridique a été considérée comme un art fortement fondé sur l’expérience humaine : chercher des limites dans l’ambiguïté, peser les arguments opposés et former le jugement sur des questions qui semblent ne pas avoir de réponse unique.

Mais une étude empirique récente de la Stanford Law School vient mettre un frein à cette imagination.

Cette étude ne vise pas à faire passer un examen de faculté de droit à une IA, ni à lui demander de rédiger un avis juridique complet. Elle examine un scénario plus spécifique et plus proche de l’enseignement quotidien : lorsque des étudiants de première année posent des questions après un cours de droit des contrats ou pendant les séances de révision, les réponses courtes fournies par l’IA seront-elles plus appréciées par les professeurs de droit que les réponses rédigées par les professeurs eux-mêmes ?

La réponse est assez frappante.

I. Taux de réussite de 75,33 % : l'IA est préférée par les professeurs dans des évaluations aveugles anonymes

L'étude intitulée « Law Professors Prefer AI Over Peer Answers » est menée par le professeur Julian Nyarko de la Stanford Law School et son Legal Innovation through Frontier Technology Lab (liftlab), avec la participation d'autres chercheurs provenant de l'Université de Yale, de l'Université de New York, de l'Université de Chicago, et d'autres institutions.

L'équipe de recherche a invité 16 professeurs de droit des contrats américains à concevoir 40 questions représentatives basées sur les interrogations fréquemment posées par les étudiants lors des heures de bureau dans le cadre du cours de droit des contrats de première année. Ensuite, les professeurs humains et les grands modèles linguistiques ont répondu séparément, suivis d'une comparaison anonyme effectuée par les professeurs sans connaître l'origine des réponses.

Les résultats montrent qu'au cours de 2 918 comparaisons aveugles et anonymes, la victoire moyenne des réponses des grands modèles linguistiques a atteint 75,33 %. La proportion jugée comme ayant une portée pédagogique trompeuse était de 12,06 % pour les réponses des professeurs humains et de 3,53 % pour les réponses de l'IA.

Ces données ont un impact fort non pas parce que l'IA a répondu correctement à quelques questions de connaissance juridique. Les évaluations précédentes de l'IA se concentraient souvent sur des faits binaires : juste ou faux. Mais la partie la plus difficile de l'enseignement juridique réside précisément non dans la mémorisation des règles, mais dans l'interprétation des règles, leur application, et l'analyse entre deux arguments apparemment tous deux valables. Cette expérience teste sa capacité à atteindre les normes professionnelles cachées et exigeantes utilisées par les juristes pour évaluer la qualité des arguments.

Deuxièmement, le combat dans la zone grise : l'IA gagne grâce à la clarté, la structure et l'approche pédagogique

Ces questions exigent que les répondants comprennent des faits spécifiques, identifient les difficultés des étudiants, appliquent des règles juridiques abstraites à de nouvelles situations et les expliquent d'une manière adaptée à l'enseignement.

C'est précisément ce que l'éducation juridique a toujours mis en avant comme un avantage humain : ne pas fournir des réponses standardisées, mais guider les étudiants vers la construction de chemins d'analyse. Ainsi, la supériorité de l'IA dans ce type de scénario n'est pas négligeable.

L'équipe de recherche a délibérément contrôlé la longueur, le format et la structure des réponses lors de la conception de l'expérience, afin d'éviter que les évaluateurs ne soient biaisés en faveur des réponses générées par l'IA simplement parce qu'elles sont plus longues, plus ordonnées ou présentent un style plus typique d'un texte généré par une machine. Pendant la phase d'évaluation en aveugle par des humains, l'étude a principalement comparé Gemini 2.5 Pro et Google NotebookLM basé sur les cas d'étude associés. L'article a également étendu l'évaluation à d'autres modèles en utilisant la méthode LLM-as-judge.

Les avantages de l'IA ne se limitent pas à « disposer de plus de données » ou à « écrire plus vite ». Dans cette expérience spécifique, elle correspond plutôt à plusieurs critères privilégiés par les professeurs de droit dans les tutorats à réponses courtes : une structure claire, un raisonnement cohérent, une réponse directe à la question et un ton pédagogique stable.

Les professeurs de droit possèdent bien sûr une expérience et une capacité de jugement plus riches dans leur enseignement quotidien, mais dans un contexte de réponse rapide limité à quelques centaines de mots, les réponses improvisées des humains ne sont pas toujours les meilleures. L’IA, en revanche, excelle à décomposer la question en plusieurs niveaux, puis à fournir une réponse claire, réutilisable et à faible volatilité émotionnelle.

Trois : ne pas remplacer le professeur, mais modifier le centre d'intérêt de son travail

Of course, interpreting this study as "AI can replace law professors" is still an overinterpretation.

La portée du document est très claire : il évalue les réponses courtes et les sessions de questions-réponses en heures de bureau dans le cadre d'un cours de droit contractuel, et non un enseignement complet, une supervision de mémoire, une enquête factuelle, un jugement sur l'éthique professionnelle, ni une capacité de représentation de clients réels.

L'excellence de l'IA dans les évaluations anonymes et aveugles ne signifie pas qu'elle possède déjà toutes les compétences nécessaires à l'enseignement juridique. Elle peut toujours produire des hallucinations, faire preuve d'une confiance excessive ou induire les étudiants en erreur en l'absence de contexte. Plus important encore, l'objectif de l'enseignement juridique n'est pas simplement de permettre aux étudiants d'obtenir « une réponse qui semble bonne », mais de leur apprendre à douter des réponses, à les décomposer et à les reconstruire.

C’est précisément là que les professeurs restent irremplaçables.

Mais cette étude rappelle aux facultés de droit qu'elles ne peuvent plus se réfugier dans le confort de l'argument selon lequel « le droit est trop complexe pour que l'IA puisse en juger ». Au moins dans certains contextes d'enseignement quotidien, l'IA est déjà capable de produire des explications suffisamment claires, suffisamment structurées, voire plus appréciées par les enseignants et pairs.

La question clé du futur ne sera peut-être plus « L'IA peut-elle répondre aux questions ? », mais « Comment les facultés de droit intègrent-elles l'IA dans leur conception pédagogique ? ». Elle peut devenir le premier interpréteur pour la préparation préalable des étudiants, un outil d'assistance pour les sessions de questions-réponses après le cours, ou encore un moyen d'entraîner les étudiants à évaluer les forces et les faiblesses des différentes réponses. La salle de classe véritablement précieuse passera peut-être de « l'enseignant qui présente les réponses » à « l'enseignant qui guide les étudiants dans l'évaluation des réponses ».

Quatrièmement, le fossé de l'éducation juridique passe de la réponse au jugement.

La partie la plus intéressante de cette étude réside dans le fait qu'elle révèle que certaines compétences autrefois considérées comme rares dans l'enseignement juridique — telles que l'interprétation des règles juridiques, l'analogie de cas, les arguments initiaux et les réponses aux questions en classe — étaient auparavant fortement dépendantes de l'expérience personnelle des professeurs. Aujourd'hui, l'IA est capable de produire de manière stable des versions tout à fait satisfaisantes dans des scénarios spécifiques.

La valeur du professeur ne disparaîtra donc pas, mais sera contrainte de s'élever : passer de la fourniture de réponses à la conception de questions ; de l'explication des règles à l'entraînement au jugement ; de la correction des erreurs à l'aide aux étudiants pour identifier les arguments qui « semblent corrects mais restent suspects ».

Cela n’est pas nécessairement mauvais pour l’éducation juridique. Au contraire, cela pourrait forcer les facultés de droit à reconsidérer une question longtemps ignorée : si l’IA peut fournir des explications initiales claires, qu’est-ce qui mérite vraiment le temps des enseignants humains en classe ? La réponse réside peut-être dans des faits plus complexes, des conflits plus réels, des jugements de valeur plus difficiles à standardiser, ainsi qu’une formation critique plus exigeante.

L'IA ayant surpassé le professeur dans une session de questions-réponses sur le droit des contrats ne signifie pas que le professeur a perdu son importance. Cela signifie que la rareté de l'éducation juridique se déplace : de « qui peut citer la réponse » vers « qui peut juger si la réponse est suffisamment bonne ».

Références

Ashe, S. (2026, 1er juin). IA surpasse les professeurs de droit dans une étude de Stanford. Stanford Law School.

Salinas, A., Frieders, C., Guha, N., Ma, S., Sanga, S., Nyarko, J., et al. Law Professors Prefer AI Over Peer Answers. Stanford Law School / liftlab, 2026.