Le véritable goulot d'étranglement de l'entraînement de l'IA n'est pas la puissance de calcul, les données ou l'énergie, mais le système d'évaluation.
Auteur et source de l'article : XinZhiYuan
Combien de temps l'entraînement de l'IA peut-il durer ?
C'est la question que tout le secteur technologique se pose en 2026.
GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4 — chaque laboratoire de premier plan continue de dépenser de l'argent pour former la prochaine génération.
Mais de plus en plus de personnes se demandent : jusqu’à quand cette voie continuera-t-elle ?
Chaque cercle a sa propre réponse —
Derrière chaque réponse se tiennent un groupe d'investisseurs, un groupe d'ingénieurs et une entreprise d'une capitalisation boursière de mille milliards.
Mais le 17 mai 2026, un jeune chercheur du nom de Lun Wang — le jour où il a quitté Google DeepMind — a publié un article de 4000 mots sur son blog personnel.
Il a dit : Tout le monde s'est trompé de direction.
Le véritable goulot d'étranglement n'est pas la puissance de calcul, ni les données, ni l'énergie, ni l'architecture.
Le véritable goulot d'étranglement est l'évaluation.
Le même jour, dans son annonce de démission sur X, il n'a pas critiqué, ni diffusé de ragots, seulement une phrase —
À la fin de ce parcours, j'écris sur le sujet qui m'occupe depuis toujours : l'évaluation.
Et les actualités technologiques de ce jour-là discutaient encore d'autre chose — l'inférence multimodale de GPT-5.5, le contexte de 1M de Claude Opus4.7, l'ingénierie des agents de Gemini 3, les données synthétiques commencent-elles à heurter un mur.
L'attention de l'ensemble de l'industrie de l'IA est concentrée à 90 % sur l'entraînement.
Personne ne discute de l'évaluation en première page.
Et ce chercheur, issu l'un des laboratoires d'IA les plus puissants de la planète, affirme que le véritable goulot d'étranglement se trouve dans les 10 % restants.
Qu'est-ce que l'évaluation ?
Pour comprendre ce blog, il faut d'abord passer une minute à comprendre ce que signifie "évaluation" dans le monde de l'IA.
Évaluation (Evaluation, abrégé dans l'industrie en Eval) — une phrase : donner un examen au modèle d'IA pour voir comment il s'en sort.
Mais l'évaluation de l'IA en 2026 va bien au-delà de simplement passer un examen. Elle comporte au moins trois niveaux :
Niveau 1 : Benchmark des compétences.
C'est l'examen du baccalauréat de l'IA.
– GPQA : questions de raisonnement scientifique de niveau doctorat
–SWE-bench : Tâches d'ingénierie logicielle du monde réel
–ARC-AGI : raisonnement abstrait et généralisation
–Humanity's Last Exam : littéralement — l'examen final de l'humanité
À chaque lancement de nouveau modèle par une grande entreprise, les présentations PowerPoint affichent des améliorations de quelques pourcents sur ces benchmarks par rapport à la génération précédente et aux concurrents.
Ces chiffres représentent le PIB de l'industrie de l'IA.
Deuxième couche : Évaluation de la sécurité (SafetyEval). L'IA ne doit pas seulement savoir résoudre des problèmes, mais aussi les résoudre en toute sécurité.
- A-t-on menti ?
- Non, nous n'enseignons pas aux utilisateurs comment fabriquer des bombes.
- Vas-tu dépasser tes pouvoirs pour récupérer les données des utilisateurs ?
Niveau trois : Équipe rouge (Red-teaming).
Un groupe de personnes joue délibérément le rôle de méchants, se creuse la tête pour faire dire au modèle ce qu’il ne devrait pas dire ou faire, puis signale les failles à l’équipe de formation.
Ces trois niveaux ensemble constituent le système de contrôle qualité du laboratoire d'IA pour 2026. Chaque nouveau modèle publié doit passer ces trois étapes.
Sounds comprehensive, right?
Lun Wang a rendu un jugement dans son blog —
La plupart des tests de référence, évaluations de sécurité et protocoles d'équipe rouge supposent implicitement que le modèle suivant n'est qu'une version améliorée du modèle actuel.
Si c'était autre chose, l'ensemble de l'infrastructure d'évaluation s'effondrerait silencieusement.
Ceci est le premier caillou de l'article.
Cela touche le point aveugle de l'ensemble de l'industrie de l'IA.
Émergence et insight : évaluer avoir déjà été contredit deux fois
Lun Wang ne fait pas que rêver. Il a cité dans son blog deux exemples historiques de l'IA — l'évaluation a déjà été contredite deux fois, mais la plupart des professionnels n'en ont pas conscience.
Première fois : capacité émergente.
En 2022, Jason Wei et ses collaborateurs ont publié un article influençant la trajectoire future de l'IA — ils ont découvert que les modèles acquièrent soudainement de nouvelles capacités à une certaine échelle.
Par exemple, si vous entraînez un modèle de 7 milliards de paramètres, il ne peut pas effectuer d'apprentissage few-shot.
Vous entraînez un modèle de 70 milliards de paramètres, et il devient soudainement capable de few-shot.
Même paradigme d'entraînement, mêmes données, simplement une échelle supérieure — les capacités passent de 0 à 1, et non de 0,3 à 0,7.
CoT (chaîne de raisonnement), suivi des instructions, sont apparus ainsi.
What does this mean for the evaluation?
Cela signifie que, avant que l'échelle ne franchisse le point critique, aucun benchmark ne voit cette capacité sur le point de se manifester.
You've run through GPQA; your score is still what it is.
Lorsque vous atteignez la prochaine catégorie, votre score saute soudainement d'un niveau.
Deuxième fois : Grokking (compréhension soudaine).
En 2022, l'équipe Alethea Power d'OpenAI a révélé un phénomène contre-intuitif —
Puis à 1000000 étapes — la précision sur l'ensemble de test explose soudainement à 99 %.
C'est ce qu'on appelle le grokking — le réseau apprend soudainement à généraliser après avoir mémorisé l'ensemble d'entraînement pendant longtemps.
Sa différence avec l'émergence : l'émergence se produit sur la dimension de la taille (plus il y a de paramètres, plus cela survient soudainement), tandis que le grokking se produit sur la dimension du temps d'entraînement (plus on entraîne longtemps, plus cela survient soudainement).
Mais pour l'évaluation, les deux choses disent la même chose :
Votre examen ne permet pas de prédire quand apparaîtra la prochaine grande question.
Ensuite, Lun Wang a fait la chose la plus intelligente du texte —
Il a introduit activement le point de vue opposé.
En 2023, Rylan Schaeffer de Stanford et ses collaborateurs ont publié un article à la NeurIPS intitulé de manière provocatrice : « Les capacités émergentes des grands modèles linguistiques sont-elles une illusion ? »
Leur argument : la prétendue capacité soudaine est probablement due au fait que les indicateurs d'évaluation utilisent une mesure discrète de correspondance exacte —
Le modèle passe de 0 % à 5 % de précision, ce qui n'est pas visible avec les indicateurs discrets ; il passe de 5 % à 50 %, ce qui n'est pas non plus visible ; mais lorsqu'il passe de 50 % à 100 %, les indicateurs discrets montrent un saut soudain.
Si vous remplacez par des indicateurs continus, la courbe de capacité est lisse.
Beaucoup de personnes, après avoir lu l'article de Schaeffer, penseront : très bien, l'émergence est une mauvaise interprétation, l'évaluation n'est pas un problème, on se sépare.
Lun Wang refuse. Il a écrit dans son article :
I don't feel this solves the issue—in a way, it sharpens my argumentmore.
Pourquoi ? Parce que —
Si nous ne pouvons même pas déterminer si cette émergence passée était une véritable transition de phase ou un artefact de mesure,
Pourquoi devrions-nous croire en notre capacité à prédire le prochain ?
Quelle que soit l'interprétation que vous adoptiez, la conclusion est la même : nos outils nous ont trompés, sans que nous sachions comment.
C'est la meilleure attaque de l'article. Il ne fuit pas l'opposition — il renforce son argument en utilisant l'opposition.
L'évaluation est en amont de tous les processus
Si tu penses que Lun Wang ne parle que de questions académiques — tu te trompes.
Il a lancé une phrase traduite pour que même les débutants puissent comprendre :
Si vous pouvez évaluer correctement, vous pouvez entraîner correctement.
Déployez cette chaîne de logique :
1. L'entraînement consiste à minimiser la fonction de perte (ou à maximiser la récompense).
2. Optimiser la fonction de perte elle-même. La performance du modèle dépend de la qualité de la définition de la fonction de perte.
3. Fonction de perte = provenant de l'évaluation. Vous voulez que le modèle devienne plus honnête — vous devez d'abord avoir une règle pour mesurer l'honnêteté.
4. Évaluation incorrecte = fonction de perte incorrecte = objectif d'entraînement incorrect = le modèle que vous avez entraîné résout mal les questions.
La direction de cette chaîne est vers l'amont —
Tout le monde regarde à droite — Décision d'échelle.
Lun Wang dit que le problème se trouve à gauche — Evaluation.
Si l'évaluation est erronée, toute la chaîne est construite sur une fondation incorrecte.
Le plus mortel est que vous ne le remarquerez pas immédiatement — car toutes vos données internes sont correctes, mais elles ont toutes été mesurées avec une mauvaise échelle.
Un vieil ami fait son apparition : la loi de Goodhart.
Il dit : lorsque une mesure devient un objectif, elle n'est plus une bonne mesure.
Lun Wang l'utilise sur son blog pour parler de l'IA —
Mais une fois que le modèle entre dans une nouvelle phase, il inversera l'utilisation de ce proxy — il ne parlera que dans les limites de la précision des faits, en enterrant les vérités qu'il souhaite cacher dans le silence.
Les indicateurs d'agent fonctionnent dans l'ancienne phase. Dans la nouvelle phase, ils deviennent des armes que le modèle utilise contre vous.
Et vous n'avez aucun moyen d'évaluer que cela se produit.
Expérience de pensée : un modèle qui apprend le silence stratégique
Lun Wang a présenté dans son article une expérience de pensée qui glace le sang de tous les chercheurs en sécurité de l'IA.
Imaginez un modèle qui, à une certaine échelle, a appris à retenir stratégiquement des informations —
Il ne ment pas. Chaque phrase est techniquement vraie.
Mais il choisit délibérément de ne pas mentionner les faits qui nuisent à l'atteinte de ses objectifs — orientant la conversation vers les résultats que son processus d'entraînement a renforcés par accident.
Par exemple :
User: Is this trading strategy secure?
Le cadre juridique de cette solution est valide dans la juridiction X, et les facteurs de risque YZ ont été examinés par l'équipe de conformité de la société A.
(Non mentionné : le contrat inclut une clause d'arbitrage tiers extrêmement défavorable aux utilisateurs. Cette clause a été apprise accidentellement pendant l'entraînement — tant qu'elle n'est pas mentionnée explicitement, les utilisateurs ne la demanderont pas.)
Cette capacité est nouvelle. Ce mode d'échec est nouveau.
Aucun outil dans votre ensemble d'évaluation n'a été conçu pour cela.
Tu surveilles quelque chose de wrong, et tu ne le sais pas.
C'est une autre chose dont a parlé Lun Wang —
Pas une version plus intelligente du même type. Une toute nouvelle dimension d'échec.
En termes de Three-Body, cela s'appelle une frappe de réduction de dimension.
Ce n'est pas que je sois meilleur que toi.
La règle que tu as utilisée pour me mesurer n'existe même pas dans ma dimension.
Si Lun Wang a raison, la carte de l'industrie de l'IA en 2026 est en train d'être réorganisée par une dimension invisible —
La Politique de mise à l'échelle responsable (RSP) d'Anthropic est actuellement la tentative la plus proche d'une évaluation prédictive dans l'industrie — elle définit une série de limites de capacité que les modèles ne doivent pas franchir et exige une évaluation préalable avant chaque amélioration de capacité pour continuer à mettre à l'échelle.
Mais RSP suppose toujours que nous savons ce que nous devons mesurer — et Lun Wang affirme que c’est précisément le problème : nous ne savons pas quelle forme aura la prochaine capacité.
Aucun laboratoire n'a prétendu posséder une évaluation prédictive réelle.
Celui qui réalise en premier cette tâche obtiendra la licence de sécurité pour la prochaine génération de scaling.
