Les LLM à usage général surpassent les outils d'IA dédiés à la médecine dans l'étude de Nature Medicine

Une étude publiée le 12 juin 2026 dans Nature Medicine a révélé que les modèles de langage généralistes ont systématiquement surpassé les produits d'IA dédiés à la clinique sur des tâches médicales standardisées. Les modèles généralistes ont également été préférés par les cliniciens les ayant utilisés.

Ce que l'étude a réellement testé

Les chercheurs ont opposé trois grands LLM à usage général à des outils médicaux spécialisés. D’un côté : GPT-5.2 d’OpenAI, Gemini 3.1 Pro Preview de Google et Claude Opus 4.6 d’Anthropic. De l’autre : des produits cliniques dédiés tels qu’OpenEvidence et UpToDate Expert AI, des outils spécifiquement conçus et commercialisés pour les professionnels de la santé.

Le terrain de compétition incluait des questions MedQA, un référentiel bien établi pour évaluer les connaissances médicales tirées des examens de licence médicale. Les modèles à usage général se sont excellents dans ces tâches, surpassant les spécialistes sur leur terrain de prédilection.

L'aperçu AI de Google Search a été inclus comme groupe témoin, représentant le type d'outil de référence rapide que les médecins utilisent réellement pendant un service chargé.

Un motif qui se répète constamment

Une étude de février 2025 a révélé que les chatbots ont surpassé les médecins limités à des références internet pour la prise de décision clinique.

Ensuite, une étude contrôlée randomisée a été publiée le 9 février 2026, impliquant 1 298 participants au Royaume-Uni. Les LLM autonomes ont atteint une précision de 94,9 % pour identifier les conditions médicales. La performance collaborative, où les médecins ont travaillé aux côtés des LLM, n’a pas dépassé le groupe témoin.

Pourquoi cela importe au-delà de la santé

Les chercheurs eux-mêmes ont identifié un écart entre les performances élevées sur les benchmarks et l'applicabilité clinique dans le monde réel. La conformité réglementaire, l'intégration aux dossiers de santé électroniques et les cadres de responsabilité n'apparaissent pas dans un score MedQA.

Mais la préférence des cliniciens est difficile à ignorer. Si les médecins préfèrent activement utiliser GPT-5.2 à un outil spécifiquement conçu pour eux, c’est un signal du marché, et non seulement une découverte de recherche.