Recursive Superintelligence dévoile son premier système automatisé de recherche en IA

Il y a quelques jours, Anthropic a publié un article intitulé « When AI Builds Itself », qui a rapidement suscité un large débat. L'article révèle un ensemble de données internes impressionnantes : d'ici mai 2026, plus de 80 % du code dans la base de code d'Anthropic a été écrit par Claude, et les ingénieurs intègrent quotidiennement huit fois plus de code qu'en 2024 ; dans un test interne, Claude a accéléré l'exécution d'un code d'entraînement d'environ 52 fois par rapport à la référence, tandis qu'un chercheur humain expérimenté mettrait généralement entre 4 et 8 heures pour atteindre une accélération de 4 fois.

Anthropic oriente cette trajectoire vers une destination plus profonde : l'« amélioration récursive de soi » — où les systèmes d'IA conçoivent, construisent et forment autonomement leurs propres versions ultérieures, sans que les humains ne pilotent chaque étape. Il est à noter que l'entreprise appelle également à une coordination industrielle, afin de disposer, au moment où l'amélioration récursive de soi surviendra, de la possibilité de suspendre ou même d'interrompre temporairement le développement des IA de pointe. Anthropic l'a déjà mis en pratique : elle limite l'utilisation du dernier Claude Fable 5 pour la recherche sur les IA de pointe.

Et maintenant, Recursive Superintelligence annonce avoir effectué sa première étape vers la recherche automatisée en intelligence artificielle.

Cette nouvelle entreprise, cofondée par Tian Yuan Dong, vient de sortir de son statut d'entreprise cachée après seulement un mois et publie aujourd'hui son premier résultat technologique public. Ils ont développé un système ouvert d'automatisation de la découverte de connaissances et ont obtenu des résultats SOTA sur trois tests de référence. En résumé, ils ont réussi à faire en sorte que l'IA effectue les expériences à votre place.

https://x.com/tydsh/status/2065062838255649082

Premier résultat : faites exécuter les expériences par l'IA à votre place

Recursive Cette première réalisation technique publique s'intitule « First Steps Toward Automated AI Research » (Vers une recherche automatisée en IA : les premiers pas).

Tweet : https://x.com/Recursive_SI/status/2064980090702962699
Adresse du dépôt : https://github.com/recursive-org/first-steps-toward-automated-ai-research
Adresse du blog : https://www.recursive.com/articles/first-steps-toward-automated-ai-research

En une phrase, le cœur de ce travail consiste à avoir construit un système capable de faire avancer automatiquement le cycle de recherche en IA et d'établir de nouveaux meilleurs résultats sur trois benchmarks.

Avant de décomposer officiellement les résultats, il est essentiel de comprendre la logique de conception de ce système.

Le processus traditionnel de recherche en IA repose sur un cycle fermé fortement dépendant de l'intervention humaine : « formuler une idée — écrire du code — exécuter des expériences — analyser les résultats — formuler une nouvelle idée ». Son goulot d'étranglement n'est pas la puissance de calcul, mais les personnes. À l'échelle mondiale, très peu de chercheurs sont capables de concevoir des processus d'entraînement de pointe, et chaque itération expérimentale nécessite leur implication intensive.

Le système de Recursive tente d'automatiser cette boucle fermée.

Son fonctionnement repose sur un objectif d'optimisation clair : le système génère automatiquement des idées d'expériences, implémente le code, exécute les validations, en tire des enseignements, puis détermine la prochaine direction de recherche. Plusieurs lignes d'étude peuvent être poursuivies en parallèle, et les découvertes efficaces peuvent être réutilisées entre les tâches. Un mécanisme intégré détecte les abus de récompense (reward hacking) pour empêcher le système de « tricher » en améliorant artificiellement les indicateurs d'évaluation sans apporter de véritable amélioration.

Ce n'est pas un outil spécialisé fine-tuné pour un problème unique, mais un cadre général d'automatisation de la recherche transversal. Recursive démontre cela à l'aide de trois scénarios de test très différents.

Trois champs de bataille, trois nouveaux records

Scénario 1 : Entraînement d'un petit modèle avec un budget de calcul fixe (NanoChat Autoresearch)

Les règles de ce benchmark proviennent du projet autoresearch lancé par Andrej Karpathy (auteur de GPT-2, cofondateur émérite d'OpenAI) : sur une seule GPU, avec un budget d'entraînement fixe de cinq minutes, entraînez un petit modèle linguistique pour atteindre la perte de validation la plus basse possible (mesurée en BPB, plus bas est meilleur).

Ce scénario est naturellement adapté à la recherche automatisée : des cycles d'expérimentation courts, une faible variance des indicateurs et une détection relativement facile des comportements frauduleux. C'est précisément pour cette raison qu'un projet communautaire appelé « autoresearch@home » fonctionne depuis longtemps sur ce benchmark — des dizaines de chercheurs humains et des centaines d'agents IA collaborent pour faire constamment baisser les indicateurs.

Le système Recursive, en partant du même code initial, a amélioré la validation BPB de 0,9372 à 0,9109, soit une amélioration de 0,0263 BPB. Autrement dit : avec la même qualité d'entraînement, la solution Recursive nécessite 1,3 fois moins de temps d'entraînement que la solution concurrente.

Les améliorations détectées par le système ne sont pas une solution unique. Elles combinent plusieurs modifications, notamment des ajustements d'architecture, des pertes auxiliaires, des changements dans les mécanismes d'attention, le comportement de l'optimiseur, le plan de décroissance des poids et les paramètres du compilateur. La découverte la plus cruciale est un mécanisme de mémoire de contexte court plus riche : dans le chemin value de l'attention, les informations de bigrammes (paires de mots adjacents) et de trigrammes (triplets) sont intégrées simultanément via une table de hachage, puis combinées à l'aide d'une pondération à seuil apprenable. Différentes couches Transformer utilisent des fonctions de hachage distinctes, réduisant ainsi la probabilité de collisions répétées entre les couches.

Cette technique est conceptuellement liée à des travaux tels que DeepSeek Engram, mais le système la déploie dans un scénario à budget fixe sous une variante spécifique non encore publiée dans la littérature ouverte.

Scénario deux : Course de vitesse limite d'entraînement (NanoGPT Speedrun)

Si le scénario précédent consistait à aller « un pas plus loin » sur les résultats d'une communauté active, ce scénario est bien plus difficile.

NanoGPT Speedrun est un autre benchmark lancé par Karpathy et continuellement optimisé par la communauté depuis plus de deux ans : le temps le plus court nécessaire pour entraîner un modèle GPT jusqu'à une perte de validation de 3,28 sur 8 GPU H100. Depuis le milieu de l'année 2024, la communauté a réduit le temps de près de 45 minutes à 79,7 secondes grâce à 83 contributions documentées. Chaque nouvelle approche nécessite de gagner du temps sur un code déjà extrêmement optimisé, ce qui en rend la difficulté évidente.

Le système Recursive, en partant de la solution optimale existante, a à nouveau réduit le temps d'entraînement à 77,5 secondes, économisant 2,2 secondes. Cela correspond, voire dépasse, les améliorations récemment réalisées par les contributeurs humains.

Les techniques clés identifiées par le système cette fois-ci incluent :

Calcul d'attention en précision FP8. Les solutions communautaires n'utilisent la précision FP8 (virgule flottante 8 bits) que sur la dernière couche du modèle (la tête du modèle linguistique), tandis que le système étend la précision FP8 aux opérations matricielles des couches d'attention : la propagation avant utilise FP8 pour obtenir un débit double des Tensor Cores, tandis que la propagation arrière conserve BF16 pour maintenir la stabilité.

Bruit d'exploration par recuit dans l'optimiseur. Le système injecte un bruit gaussien à moyenne nulle lors des étapes de mise à jour de l'optimiseur NorMuon, dont l'amplitude diminue linéairement jusqu'à zéro au cours de l'entraînement. Cela confère à l'optimiseur un comportement de type « explorer d'abord avec audace, puis converger de manière stable », aidant ainsi la solution finale à se situer dans un bassin de perte plus plat.

Noyau MLP fusionné plus compact. Le système a réécrit un noyau Triton GPU pour ne stocker durant la propagation avant que les activations après mise au carré du ReLU, et recalculer à l'intérieur du noyau les résultats intermédiaires non mis au carré lors de la rétropropagation, éliminant ainsi un aller-retour complet de lecture/écriture du tenseur d'activations dans la mémoire haute bande passante — une accélération directe au niveau matériel.

Trois améliorations, respectivement dans les domaines professionnels de la stratégie de précision, de la conception de l'optimiseur et de la programmation de noyaux GPU. Le fait que le système ait encore trouvé des marges d'amélioration après deux ans d'optimisation communautaire en dit long.

Scénario 3 : Optimisation du noyau GPU (SOL-ExecBench)

Les deux premiers scénarios fonctionnent au niveau de l'entraînement du modèle, tandis que le troisième scénario va plus loin : l'optimisation des noyaux de calcul GPU.

SOL-ExecBench est un benchmark lancé par NVIDIA, comprenant 235 tâches de programmation de noyaux, couvrant diverses charges réelles telles que la multiplication matricielle, les réductions, les couches de normalisation, les composants d'attention, les routines de quantification et les blocs fusionnés. Le score est mesuré en points SOL : 0,5 correspond à une implémentation de référence PyTorch, et 1,0 correspond à la limite théorique du matériel. Le meilleur score public précédent était de 0,699.

Le système Recursive s'exécute globalement sur 235 cœurs, permettant de réutiliser les motifs d'optimisation découverts entre les tâches (par exemple, les stratégies de transfert mémoire, les méthodes de découpage et les techniques de réduction), ce qui a augmenté le score final à 0,754, réduisant de 18 % l'écart par rapport à la limite matérielle.

Ce scénario est particulier, car le génie des noyaux est un domaine extrêmement spécialisé — les ingénieurs capables d'écrire des noyaux Triton/CUDA efficaces sont rares dans le monde entier. L'équipe Recursive a reconnu sur son blog qu'elle n'était pas elle-même experte dans ce domaine : « Ces idées proviennent du système lui-même, et non de notre formation professionnelle. »

Recursive : Utiliser l'IA pour étudier la récursivité afin d'améliorer l'IA

L'entreprise Recursive Superintelligence, qui a publié ce résultat, a été fondée à la fin 2025 ou au début 2026 et vient tout juste de mettre fin à son statut d'entreprise secrète le mois dernier ; ses fondateurs incluent, outre Tian Yandong, ancien directeur des scientifiques de recherche chez Meta FAIR :

Richard Socher, PDG de Recursive, ancien scientifique en chef de Salesforce

Alexey Dosovitskiy, ancien scientifique chercheur chez Google DeepMind et premier auteur du Vision Transformer, avec plus de 160 000 citations sur Google Scholar

Tim Rocktäschel, ancien principal scientifique de DeepMind et professeur d'intelligence artificielle à l'UCL

Peter Norvig, ancien directeur de la recherche chez Google, est co-auteur avec Stuart Russell du célèbre manuel d'intelligence artificielle « Artificial Intelligence: A Modern Approach ».

Caiming Xiong, ancien vice-président de l'IA chez Salesforce

Tim Shi, ancien chercheur chez OpenAI, cofondateur et CTO de l'entreprise d'IA Cresta

Josh Tobin, CTO de Recursive, ancien responsable de la recherche chez OpenAI et Uber ATG

Jeff Clune, ancien vice-président de la recherche chez Google DeepMind, professeur d'informatique à l'Université de la Colombie-Britannique, au Canada

Et dès son lancement, sans même avoir encore de produit public, cette startup a levé 650 millions de dollars, avec une valorisation de 4,65 milliards de dollars, menée par GV (Google Ventures) et Greycroft, avec la participation d’NVIDIA et AMD Ventures.

La proposition centrale de l'entreprise correspond directement à son nom : construire des systèmes d'IA capables de recursively améliorer leurs propres capacités de recherche, en permettant à l'IA de participer et d'accélérer le processus de développement de l'IA elle-même, pour finalement former une boucle fermée d'auto-amélioration continue.

Pour plus de détails, consultez l'article « Après avoir quitté Meta, Tian Yuan Dong vient d'annoncer sa création d'entreprise ».

Bien sûr, sur le plan de la filière, Recursive n'est pas seul. AMI Labs de Yann LeCun a levé 1 milliard de dollars en mars de cette année, et Ineffable Intelligence de David Silver a obtenu une ronde de financement amorce de 1,1 milliard de dollars en avril, tous deux orientés vers un objectif similaire : permettre aux systèmes d'IA de générer autonomement des connaissances, en réduisant l'intervention humaine dans le processus de recherche. Mais en termes de rythme de publication des résultats, cette « première étape » de Recursive constitue l'une des démonstrations techniques les plus concrètes et les plus reproductibles parmi les entreprises du même domaine à ce jour.

L'aube du paradigme récursif

Ce résultat publié par Recursive représente, dans un contexte industriel plus large, une première mise en œuvre d'un nouveau paradigme de recherche en IA : faire de l'IA elle-même le principal acteur de la recherche.

La logique fondamentale de cet « AI récursif » n’est pas complexe : l’IA améliore les capacités de recherche en IA, et l’IA améliorée peut à son tour renforcer encore plus efficacement ses propres capacités, en une boucle continue. Elle ne repose pas sur une seule percée unique, mais sur un système capable de générer continuellement des percées.

Cette approche a une importance significative pour l'économie de la recherche en IA elle-même. Le processus d'entraînement des modèles de pointe dépend encore fortement d'un petit nombre de chercheurs possédant des compétences spécifiques, et il n'y a pas plus de quelques milliers de personnes dans le monde capables de réaliser ce travail. Si un système de recherche automatisé pouvait prendre en charge même une partie de ces tâches, la vitesse et la courbe des coûts de l'avancement de l'IA changeraient.

Ce jugement résonne également avec d'autres voix récentes du secteur. Par exemple, l'article « When AI Builds Itself » d'Anthropic, mentionné en début de cet article, ne se veut pas léger — il appelle à une coordination du secteur pour disposer, au moment où l'amélioration récursive de soi surviendra, de la possibilité de suspendre ou même d'interrompre temporairement le développement des IA de pointe, afin de laisser le temps aux structures sociales et à la recherche sur l'alignement de rattraper le rythme. Pour plus de détails, consultez « L'auto-évolution de l'IA est trop rapide, Anthropic appelle à une suspension mondiale du développement ».

https://www.anthropic.com/institute/recursive-self-improvement

Deux événements se produisent simultanément, ce qui est révélateur : d’un côté, Anthropic enregistre et met en garde contre la trajectoire suivie, de l’autre, des équipes comme Recursive avancent pas à pas pour concrétiser cette trajectoire.

Bien sûr, Recursive reconnaît également qu'il s'agit encore d'"une première étape" : le système actuel fonctionne le mieux dans des scénarios où les indicateurs sont clairs, les retours rapides et la triche détectable, et il reste encore un long chemin à parcourir pour avancer de manière autonome sur des problèmes scientifiques ouverts. La prévention des récompenses pour la triche constituera un défi central à relever continuellement lors de la mise à l'échelle.

Mais un cercle vertueux a déjà commencé à fonctionner. La question suivante est simplement à quelle vitesse il tournera.

Cet article provient du compte officiel WeChat « Machine Heart » (ID : almosthuman2014), auteur : Machine Heart en évolution récursive, éditeur : Panda