Les meilleurs modèles d'IA peinent à battre les jeux Pokémon, mettant en évidence des lacunes dans le raisonnement à long terme

Auteur :Guo Xiaojing, Tencent Technology

Rédaction | Xu Qingyang

Les modèles d'IA les plus avancés au monde peuvent réussir des examens de licence médicale, écrire des codes complexes, et même battre des experts humains lors de compétitions mathématiques. Pourtant, ils échouent encore et encore dans un jeu pour enfants, Pokémon.

Cette tentative remarquable a commencé en février 2025, lorsque l'un des chercheurs d'Anthropic a lancé un live Twitch intitulé « Claude joue à Pokémon Rouge », en parallèle à la sortie de Claude Sonnet 3.7.

2000 spectateurs se sont rués dans la diffusion en direct. Dans la zone de discussion publique, les spectateurs ont proposé des conseils à Claude et l'ont encouragé, faisant de cette diffusion en direct un observatoire public progressivement centré sur les capacités de l'IA.

On peut dire que Sonnet 3.7 sait "jouer" à Pokémon, mais savoir "jouer" ne signifie pas nécessairement "gagner". Il peut se bloquer pendant des dizaines d'heures à des moments clés, et commettre des erreurs grossières que même les jeunes joueurs n'auraient pas.

Ce n'est pas la première tentative de Claude.

Les versions antérieures se montraient encore plus catastrophiques : certaines erraient sans but sur la carte, d'autres se retrouvaient bloquées dans des boucles infinies, et encore plus nombreuses ne parvenaient même pas à quitter le village d'entraînement.

Même le Claude Opus 4.5, dont les capacités ont connu une amélioration notable, commet encore des erreurs énigmatiques. Une fois, il a tourné en rond pendant整整 quatre jours à l'extérieur du "dōjō", sans jamais parvenir à entrer, tout simplement parce qu'il n'avait pas réalisé qu'il fallait abattre l'arbre qui bloquait le passage.

Un jeu pour enfants, pourquoi est-ce devenu un échec pour l'IA ?

Parce que Pokémon exige précisément les capacités dont l'IA actuelle manque le plus : raisonner de manière continue dans un monde ouvert sans instructions explicites, se souvenir des décisions prises plusieurs heures plus tôt, comprendre les relations de cause à effet implicites, et élaborer un plan à long terme parmi des centaines d'actions possibles.

Ce qui est un jeu d'enfant pour un enfant de huit ans constitue pourtant un obstacle insurmontable pour des modèles d'IA prétendant "dépasser l'humanité".

01 L'écart entre les outils détermine-t-il le succès ou l'échec ?

En comparaison, Gemini 2,5 Pro de Google a réussi à terminer un jeu Pokémon de difficulté similaire en mai 2025. Sundar Pichai, le PDG de Google, a même plaisanté publiquement sur le fait que l'entreprise faisait un pas vers la création d'une « intelligence Pokémon artificielle ».

Cependant, ce résultat ne peut pas être simplement attribué au fait que le modèle Gemini soit lui-même plus « intelligent ».

La différence cruciale réside dans l'ensemble d'outils utilisés par le modèle. Joel Zhang, développeur indépendant chargé de l'opération du live Gemini Pokémon, compare cet ensemble d'outils à un "armure Iron Man" : l'IA n'entre pas dans le jeu les mains vides, mais est placée au sein d'un système capable d'appeler diverses capacités externes.

L'ensemble d'outils de Gemini offre davantage de soutien, par exemple en transcrivant les images du jeu en texte, ce qui permet de compenser les faiblesses du modèle en matière de compréhension visuelle, et en fournissant des outils personnalisés pour la résolution d'énigmes et la planification de trajectoires. En revanche, l'ensemble d'outils utilisé par Claude est plus sobre, et ses tentatives reflètent de manière plus directe les capacités réelles du modèle en termes de perception, de raisonnement et d'exécution.

Dans les tâches quotidiennes, ces différences ne sont pas très apparentes.

Lorsqu'un utilisateur pose une question à un chatbot nécessitant une recherche sur Internet, le modèle appelle automatiquement les outils de recherche. Cependant, dans des tâches à long terme comme Pokémon, les différences entre les ensembles d'outils sont suffisamment importantes pour déterminer le succès ou l'échec.

02. Le système de tours révèle les faiblesses de la mémoire à long terme de l'IA

Étant donné qu'il s'agit d'un jeu à tour par tour strict et ne nécessitant pas de réaction instantanée, Pokémon est devenu un excellent "terrain d'entraînement" pour tester l'IA. À chaque étape, l'IA n'a besoin que de raisonner à partir de l'image actuelle, des indices d'objectif et des actions possibles pour produire des instructions précises comme "appuyer sur la touche A".

Il s'agit semble-t-il exactement du type d'interaction dans lequel les grands modèles linguistiques excellent le plus.

Le problème réside précisément dans le "décrochage" de la dimension temporelle. Bien que Claude Opus 4.5 ait déjà fonctionné pendant plus de 500 heures et effectué environ 170 000 étapes, il est limité par le réinitialisation à chaque étape, ce qui oblige le modèle à chercher des indices dans une fenêtre contextuelle extrêmement étroite. Ce mécanisme le rend plus semblable à un amnésique qui tenterait de maintenir sa mémoire grâce à des post-it, tournant en boucle dans des fragments d'informations, sans jamais réussir à franchir le seuil qualitatif d'expérience, comme le ferait un véritable joueur humain, passant d'une accumulation quantitative à une évolution qualitative.

Dans des domaines tels que les échecs et le jeu de Go, les systèmes d'IA ont depuis longtemps dépassé les capacités humaines, mais ces systèmes sont hautement spécialisés pour des tâches précises. En revanche, des modèles généralistes tels que Gemini, Claude et GPT remportent fréquemment des victoires sur les humains dans des examens, des compétitions de programmation, mais rencontrent en revanche de nombreuses difficultés face à un jeu destiné aux enfants.

Cette dissonance en elle-même est très éclairante.

Selon Joel Zhang, le défi fondamental auquel l'IA fait face est son incapacité à poursuivre un objectif clair et unique sur une longue période. « Si vous voulez que l'agent accomplisse un travail réel, il ne doit pas oublier ce qu'il a fait il y a cinq minutes », a-t-il souligné.

Et cette capacité est précisément une condition essentielle pour réaliser l'automatisation du travail cognitif.

Peter Whidden, un chercheur indépendant, a fourni une description plus intuitive. Il a mis à disposition open source un algorithme Pokémon basé sur l'IA traditionnelle. « L'IA connaît presque tout Pokémon », a-t-il déclaré, « elle a été entraînée sur une quantité énorme de données humaines et connaît parfaitement les bonnes réponses. Mais dès l'étape d'exécution, elle devient maladroite. »

Dans le jeu, cet écart entre "savoir et ne pas pouvoir agir" s'amplifie constamment : le modèle peut savoir qu'il doit chercher un objet, mais ne parvient pas à se positionner de manière stable sur une carte en deux dimensions ; il sait qu'il devrait parler à un PNJ, mais échoue en répétant des mouvements au niveau des pixels.

03 Évolution des capacités : le fossé "instinctif" non franchi

Cependant, les progrès de l'IA restent évidents. Claude Opus 4.5 dépasse clairement ses prédécesseurs en matière d'enregistrement de soi-même et de compréhension visuelle, permettant ainsi d'aller plus loin dans le jeu. Gemini 3 Pro, après avoir terminé Pokémon Bleu, a réussi à terminer le jeu plus difficile Pokémon Cristal, sans perdre un seul combat tout au long de l'expérience. C'est une performance que Gemini 2.5 Pro n'avait jamais atteinte.

Pendant ce temps, l'ensemble d'outils Claude Code d'Anthropic permet aux modèles d'écrire et d'exécuter leur propre code. Il a déjà été utilisé pour des jeux rétro tels que RollerCoaster Tycoon, et paraît capable de gérer avec succès un parc à thème virtuel.

Ces cas révèlent une réalité contre-intuitive : les IA dotées d'outils appropriés peuvent démontrer une très grande efficacité dans des tâches intellectuelles telles que le développement logiciel, la comptabilité ou l'analyse juridique, même si elles peinent encore à gérer les tâches nécessitant une réaction en temps réel.

Les expériences Pokémon ont révélé un autre phénomène intrigant : les modèles entraînés sur des données humaines présentent des comportements proches de ceux des humains.

Dans le rapport technique sur Gemini 2.5 Pro, Google indique que la qualité du raisonnement du modèle diminue nettement lorsque le système simule un « état de panique », par exemple lorsque l'un des Pokémon est sur le point de perdre connaissance.

Et lorsqu'il réussit finalement à terminer Pokémon Bleu, Gemini 3 Pro laissa un commentaire non nécessaire au scénario : « Pour une fin poétique, je retourne à la maison d'origine et j'ai une dernière conversation avec ma mère, afin de retirer le personnage. »

Pour Joel Zhang, ce comportement était inattendu et porteur d'une certaine projection émotionnelle humaine.

04. Une « Longue Marche numérique » difficile à surmonter pour l'IA, bien au-delà de Pokémon

Pokémon n'est pas un cas isolé. Dans la quête de l'intelligence artificielle générale (IAG), les développeurs ont constaté que même si les IA peuvent se classer parmi les meilleurs aux examens juridiques, elles rencontrent toujours des obstacles insurmontables face à certains jeux complexes.

NetHack : L'abîme des règles

Ce jeu de donjon des années 80 est un véritable "cauchemar" pour la recherche en intelligence artificielle. Très aléatoire et doté d'un système de "mort permanente", il s'est avéré extrêmement difficile à maîtriser. Facebook AI Research a découvert que même si les modèles sont capables d'écrire du code, ils se révèlent largement inférieurs aux débutants humains dans le jeu de rôle complexe que constitue NetHack, notamment en ce qui concerne la logique commune et la planification à long terme.

Minecraft : La perte du sentiment d'objectif

Bien que les intelligences artificielles soient capables de fabriquer des pioches en bois, voire d'extraire des diamants, battre seul l'enderman reste un fantasme. Dans un monde ouvert, les IA ont souvent tendance à "oublier" leur objectif initial au cours d'heures de collecte de ressources, ou à se perdre complètement dans des situations de navigation complexes.

StarCraft II : L'écart entre polyvalence et spécialisation

Bien que les modèles personnalisés aient déjà battu des joueurs professionnels, si l'on confie directement le contrôle via des instructions visuelles à Claude ou Gemini, ceux-ci échouent instantanément. Les modèles généraux restent encore impuissants face à la gestion de l'incertitude du "brouillard de guerre" ainsi qu'à l'équilibre entre le contrôle microscopique et la construction macroscopique.

RollerCoaster Tycoon : Un déséquilibre entre le micro et le macro

Gérer un parc d'attractions nécessite de suivre l'état de milliers de visiteurs. Même Claude Code, doté d'une capacité initiale de gestion, montre facilement des signes de fatigue lorsqu'il doit gérer des faillites financières massives ou des accidents soudains. La moindre faille dans le raisonnement entraînerait la faillite du parc.

Elden Ring et Sable : L'écart des rétroactions physiques

Ce type de jeu avec des rétroactions d'actions fortes n'est pas du tout adapté à l'IA. Le retard actuel dans l'analyse visuelle signifie que, lorsque l'IA est encore en train de "réfléchir" aux actions du boss, le personnage est souvent déjà mort. Les exigences de réaction au niveau des millisecondes constituent une limite naturelle pour la logique d'interaction du modèle.

Pourquoi Pokémon est-il devenu une épreuve pour l'IA ?

Aujourd'hui, Pokémon devient progressivement un critère de test informel mais très convaincant dans le domaine de l'évaluation de l'IA.

Les modèles d'Anthropic, d'OpenAI et de Google ont attiré des centaines de milliers de commentaires lors de leurs diffusions en direct sur Twitch. Google a détaillé les progrès de Gemini dans le jeu dans un rapport technique, et Pichai a mentionné publiquement cette réalisation lors de la conférence pour développeurs I/O. Anthropic a même mis en place une zone de démonstration intitulée « Claude joue à Pokémon » lors d'une conférence du secteur.

« Nous sommes un groupe d'enthousiastes technologiques », reconnaît honnêtement David Hershey, responsable de l'IA appliquée chez Anthropic. Mais il insiste sur le fait que cela ne concerne pas uniquement le divertissement.

Contrairement aux benchmarks traditionnels à usage unique et basés sur des questions-réponses, Pokémon permet de suivre sur une longue période le raisonnement, les décisions et la progression vers les objectifs du modèle, ce qui correspond davantage aux tâches complexes que les humains souhaitent voir exécutées par l'IA dans le monde réel.

Jusqu'à présent, le défi relevé par l'IA dans Pokémon continue. Mais c'est précisément ces difficultés répétitives qui dessinent clairement les limites des capacités que l'intelligence artificielle générale n'a pas encore franchies.

L'auteur de cette compilation, Wuji, a également apporté sa contribution à cet article.