Richard Sutton, lauréat du prix Turing et père de l'apprentissage par renforcement, critique les limites intrinsèques de l'IA générative actuelle : les bonnes parties ne sont pas nouvelles, et les parties nouvelles ne sont pas bonnes.

Auteur et source de l'article : Nouvelle Intelligence

IA : Les bonnes parties ne sont pas nouvelles, les nouvelles parties ne sont pas bonnes.

L'une des critiques les plus acerbes du milieu académique est :

Ce travail est à la fois original et excellent.

Malheureusement, les bonnes parties ne sont pas novatrices, et les parties novatrices ne sont pas bonnes.

Mais Richard Sutton, l'un des fondateurs du domaine de l'apprentissage par renforcement, auteur du manuel « Reinforcement Learning » et lauréat du prix Turing, a tourné cette blague contre l'ensemble de l'IA générative.

Il dit : Cette évaluation s'applique à la plupart des IA que nous connaissons aujourd'hui.

IA : Les bonnes parties ne sont pas nouvelles, les nouvelles parties ne sont pas bonnes.

L'argument central de Sutton est extrêmement simple, trop simple pour être cruel.

L'IA générative est fondamentalement de l'apprentissage supervisé.

La logique de l'apprentissage supervisé consiste à montrer au modèle de nombreux exemples créés par des humains afin qu'il apprenne à les imiter.

Plus l'imitation est fidèle, plus le score est élevé.

La question arrive.

Lorsque le modèle génère du contenu strictement selon les données d'entraînement, la qualité de la sortie est élevée, car il reproduit des éléments déjà validés par les humains. Mais cela n'est pas novateur. Il ne fait que réorganiser et reconditionner des connaissances déjà connues des humains.

Lorsque le modèle tente de s'éloigner des données d'entraînement et de générer du contenu véritablement nouveau, la qualité s'effondre. Car il ne possède aucun mécanisme interne pour évaluer « si cette nouveauté est bonne ou non ». Il génère simplement, sans évaluer.

C'est cette contradiction structurelle :

Novelty and quality are at opposite ends of a seesaw under a purely supervised learning framework.

Quand vous appuyez sur un côté, l'autre côté se soulève.

Ce n'est pas un problème d'ingénierie. Ce n'est pas en accumulant des données, en élargissant le modèle ou en ajoutant plus de GPU que l'on peut le résoudre.

Sutton a utilisé une comparaison extrêmement frappante : « l'hallucination » — le défaut le plus critiqué des grands modèles — est essentiellement un sous-produit de la tentative du modèle d'être « novateur ».

Nous détestons les hallucinations, ce qui prouve exactement une chose : nous ne voulons en réalité aucune nouveauté. Nous ne voulons que des imitations de haute qualité.

Ce qui est bon n'est pas novateur, et ce qui est novateur n'est pas bon.

La critique acerbe du relecteur dans cette blague décrit précisément les limites intrinsèques de l'IA générative.

La véritable « découverte » nécessite un ensemble de trois éléments

Sutton, à partir des principes premiers, a décomposé la « formule trinitaire » de la créativité :

La véritable découverte (Discovery) = variation (Variation) + évaluation (Evaluation) + conservation sélective (Retention).

Toute véritable créativité et découverte nécessite trois étapes, indispensables l'une à l'autre :

1. La variation génère des possibilités diversifiées. Elle peut être aléatoire ou basée sur des connaissances existantes, mais doit impliquer une véritable incertitude — sinon, ce n'est pas une exploration, c'est une consultation de tableau.

2. Évaluation : déterminer quelles variations sont précieuses. Cela nécessite un objectif clair ou un critère permettant d'identifier ce qui est « bon » ou « mauvais ».

3. Rétention sélective : conservez les variations précieuses pour qu'elles influencent les actions et l'apprentissage futurs.

Ces trois étapes ne sont pas l'invention de Sutton. Ce sont la logique de la sélection naturelle, la logique de la méthode scientifique, la logique de l'apprentissage humain.

Théorie de l'évolution : mutations génétiques aléatoires (variations) → sélection environnementale (évaluation) → survie du plus adapté (préservation sélective).

Méthode scientifique : formuler une hypothèse (mutation) → vérification expérimentale (évaluation) → publication d'un article (préservation sélective).

Apprentissage humain : essayer différentes solutions (mutation) → vérifier la justesse (évaluation) → retenir les méthodes efficaces (préservation sélective).

Actuellement, l'IA générative n'a accompli que la première étape de la trinité : à peine d'évaluation, sans parler de conservation sélective,

C'est comme un archer qui tire des flèches au hasard, les yeux bandés, sans regarder la cible ni ajuster sa posture en fonction des résultats.

Tu lui demandes de tirer dix mille flèches ; de temps en temps, une atteint la cible, mais elle ne saura jamais pourquoi.

Alors, les scientifiques sont-ils encore utiles ?

À ce stade, vous pourriez vous sentir un peu anxieux : si l’IA parvient un jour à accomplir automatiquement le triptyque de la « découverte », les scientifiques risquent-ils de perdre leur emploi ?

La réponse de Sutton est : non remplaçable, mais le rôle doit être complètement transformé.

Il a déclaré lors de son discours que même une IA capable de prouver des théorèmes mathématiques de manière indépendante a encore besoin que l'humain lui indique quels problèmes sont importants.

Ce n'est pas de la modestie, mais une reconnaissance réelle des limites de la connaissance.

Le mathématicien Shiqian Ma, expert en optimisation à l'Université Rice, a déclaré qu'il a utilisé ChatGPT pour prouver la convergence d'un algorithme qu'il étudiait depuis six ans.

Il y a une phrase dans le résumé :

Certifié généré par ChatGPT 5.5 et vérifié par l'auteur.

Cet algorithme s'appelle BDRS, soit Bregman Douglas-Rachford Splitting, et est utilisé pour résoudre les problèmes de transport optimal.

Titre de l'article : Méthode de fractionnement Bregman Douglas-Rachford

Adresse du préimpression :

C'est quelque chose qu'il a conçu lui-même avec ses co-auteurs, et qui l'a préoccupé pendant six ans, c'est la preuve de sa convergence, c'est-à-dire, au sens mathématique le plus strict, « pourquoi cela fonctionne ».

La plateforme de prépublications arXiv a reçu le soumission, mais elle est toujours en attente.

Il suppose que la raison est que le résumé contient les trois mots « ChatGPT », et que la plateforme ne sait pas comment traiter ce type d'article.

Mais les humains peuvent-ils être remplacés par l'IA ?

Sa réponse est : non. Il a déclaré franchement :

Je ne pense pas que l’IA puisse créer créativement un tel algorithme et affirmer : « Il s’agit d’un algorithme efficace pour le transport optimal ; essayons maintenant de prouver sa convergence ».

Sans guidance humaine, l'IA ne sait pas quel problème résoudre.

This statement corresponds exactly to Sutton: the problem itself must be defined by humans.

Il a mis six ans pour « poser la bonne question » :

Quelles questions poser nécessite en réalité une compréhension très approfondie du sujet.

Pour ce cas, j’ai étudié ce problème pendant six ans, donc je connais parfaitement les difficultés impliquées.

Ces six années ne sont pas une perte, elles sont une condition préalable.

Ces six années lui ont permis de comprendre où se situait la faille dans cette preuve, pourquoi tous les chemins précédents avaient échoué, et quelle direction proposée par ChatGPT méritait d'être poursuivie, laquelle était une illusion.

Et ce n'est pas une seule invitation, mais cinq mois. C'est l'endroit le plus souvent mal compris, qu'il a lui-même mal compris :

De janvier à mai, pendant cinq mois entiers, d'innombrables conversations, chaque prompt se rapprochant davantage de la preuve.

Il a résumé de manière extrêmement claire :

La nature de la recherche n'a pas changé : il s'agit toujours d'essais et d'erreurs répétés. Ce qui a changé, c'est la vitesse de chaque essai : autrefois, il fallait plusieurs semaines pour valider une direction, maintenant, on sait en quelques minutes si cette voie est viable.

Mais la contribution de l'IA est indélébile :

Ensuite, la fin devient directement légendaire :

Concernant mon article sur la convergence de BDRS, je suis assez certain que la preuve est correcte.

Mais si vous trouvez une erreur, la responsabilité est entièrement la mienne — ne blâmez pas ChatGPT, il n'a que 3,5 ans.

La beauté de cette phrase réside dans sa dualité : c'est à la fois une déclaration sincère de responsabilité et une métaphore précise.

« 3,5 ans » décrit la situation réelle de l'IA aujourd'hui : des capacités impressionnantes, mais un jugement encore immature.

Après tout, on n'a jamais attendu d'un enfant de 3 ans qu'il apporte une contribution.

Bien que vous ne puissiez pas confier le droit final de signature de la preuve à une IA, vous ne pouvez pas non plus prétendre que l'IA n'a apporté aucune contribution.

C'est aussi pourquoi les véritables découvertes scientifiques ne disparaissent pas entre les mains des humains.

Au contraire, il filtrera plus sévèrement l'humanité : seuls ceux qui posent de bonnes questions méritent d'avoir un IA puissant.

À l'avenir, les scientifiques qui n'utilisent pas l'IA pourront sembler aussi obsolètes que les astronomes qui n'utilisent pas d'ordinateur.

Enfin, rappelons ensemble les mots déclaratifs de Sutton :

Pour tirer pleinement parti de la puissance des scientifiques en IA, nous devons partager avec eux nos objectifs afin qu’ils puissent créer, évaluer et découvrir, et ainsi participer pleinement à leur réalisation.

Soyons audacieux ! Automatisons complètement la créativité et la découverte !

ChatGPT résout un problème de mathématiques de 6 ans, le lauréat du prix Turing déclare : « Il est trop tôt pour célébrer »

La véritable « découverte » nécessite un ensemble de trois éléments

Alors, les scientifiques sont-ils encore utiles ?