Une agence gouvernementale américaine a publié les résultats de l'évaluation de l'intelligence artificielle la plus puissante de Chine : en retard de huit mois, et l'écart s'élargit avec le temps. Après avoir lu la méthode d'évaluation, les utilisateurs d'Internet ont commencé à poser diverses questions.
CAISI——le centre de normalisation et d'innovation en intelligence artificielle, un département de l'Institut national des normes et de la technologie des États-Unis (NIST)——a publié un rapport d'évaluation selon lequel le produit phare open source de DeepSeek, publié le 1er mai, est « en retard d'environ huit mois par rapport aux technologies de pointe ».
CAISI l'a également qualifiée du modèle d'intelligence artificielle chinois le plus puissant évalué à ce jour.
Système de notation
CAISI ne moyenne pas les scores de référence comme la plupart des organismes d'évaluation. Au contraire, il applique la théorie de la réponse à l'item (une méthode statistique issue des tests standardisés) pour estimer la capacité latente de chaque modèle, en suivant les problèmes résolus et non résolus par chaque modèle sur neuf benchmarks dans cinq domaines (cybersécurité, génie logiciel, sciences naturelles, raisonnement abstrait et mathématiques).
Selon les évaluations Elo estimées par l'IRT, GPT-5.5 obtient 1260 points, tandis que Claude Opus 4.6 d'Anthropic en obtient 999. DeepSeek V4 Pro marque environ 800 points (±28), ce qui est très proche des 749 points de GPT-5.4 mini. Dans le système d'évaluation de CAISI, DeepSeek est plus proche de la génération précédente de GPT mini que d'Opus.
Le système de notation dans les tests de référence simule la manière dont les examens standardisés notent les élèves — il ne s'agit pas de noter directement selon le taux de réponses correctes, mais d'attribuer des poids aux questions correctes et incorrectes afin d'estimer une note. Cette estimation de note n'a de sens relatif que lorsqu'elle est comparée à d'autres modèles lors de la même évaluation. En général, plus la note est élevée, meilleur est le modèle ; la note du meilleur modèle devient le point de référence pour mesurer les capacités des modèles.
Étant donné que deux des neuf tests de référence ne sont pas publiés et que l'écart est le plus marqué dans ces deux tests, les résultats de CAISI ne peuvent pas être reproduits. Par exemple, GPT-5.5 a obtenu 71 % sur l'un des tests de cybersécurité de CAISI, CTF-Archive-Diamond, tandis que DeepSeek a obtenu environ 32 %.
Dans les tests de référence publics, les choses sont différentes. Au test GPQA-Diamond (un test de raisonnement scientifique de niveau doctorat évalué selon le taux de précision), DeepSeek obtient 90 %, soit seulement 1 point de moins que les 91 % d'Opus 4.6. Sur les benchmarks d'olympiades de mathématiques (OTIS-AIME-2025, PUMaC 2024 et SMT 2025), DeepSeek obtient respectivement 97 %, 96 % et 96 %. Dans le test SWE-Bench Verified (évalué selon le taux de résolution de bugs réels sur GitHub), DeepSeek obtient 74 %, contre 81 % pour GPT-5.5. Le rapport technique de DeepSeek affirme lui-même que les performances de V4 Pro sont comparables à celles d'Opus 4.6 et de GPT-5.4.
Pour effectuer une comparaison des coûts, CAISI a éliminé tous les modèles américains dont les performances étaient nettement inférieures à celles de DeepSeek ou dont le coût par token était significativement supérieur à celui de DeepSeek. Seul un modèle a satisfait aux critères : GPT-5.4 mini. Cela englobe presque tous les algorithmes les plus avancés aux États-Unis, n'en laissant finalement qu'un seul.
DeepSeek a été plus économique dans 5 des 7 tests de référence, surpassant même le modèle AI le plus petit et le moins puissant d'OpenAI.
Contre-argument : l'écart est-il plus grand ou plus petit ?
Critiquer la méthodologie de CAISI ne prouve pas entièrement la validité de DeepSeek. Le développeur d'IA sous pseudonyme CAISI, Ex0bit, a répondu directement : « Il n'existe tout simplement pas de “écart”, personne n'est en retard de huit mois. À chaque vente privée aux États-Unis, on nous moque, et lors des ventes publiques, on nous ridiculise. »
L'analyse par intelligence artificielle de l'indice intelligent v4.0 (un système d'évaluation qui suit l'intelligence des modèles de pointe à travers 10 évaluations) montre qu'au mois de mai 2026, OpenAI obtient un score proche de 60, tandis que DeepSeek se situe autour de 50, ce qui réduit considérablement l'écart par rapport à il y a un an.
According to standardized benchmarks, their approach indicates that the gap is actually narrowing.
DeepSeek a fait ses débuts en janvier 2025, avec la question de savoir si la Chine avait rattrapé son retard.Les laboratoires américains ont réagi rapidement. L'Index de l'intelligence artificielle 2026 de Stanford — publié le 13 avril — rapporte que l'écart sur le classement Arena entre Claude Opus 4.6 et le Dola-Seed-2.0 Preview chinois se réduit, et s'élève désormais à seulement 2,7 %.
CAISI prévoit de publier une description plus complète de la méthodologie IRT dans un avenir proche.
