Rapport d'Anthropic : L'amélioration autonome de l'IA progresse, mais l'autonomie complète reste lointaine

Selon les données de Beating Monitoring, la capacité des IA à s'itérer elles-mêmes dépasse les attentes de tous. L'Institut Anthropic a publié le 5 juin un rapport intitulé « When AI Builds Itself », détaillant ses progrès dans le domaine de l'« amélioration récursive de soi ». Les données montrent qu'à mai 2026, plus de 80 % du code fusionné dans le dépôt principal d'Anthropic avait été écrit par Claude lui-même. Avant la sortie de Claude Code en février 2025, le code généré par Claude ne représentait qu'un faible pourcentage. Le fondateur de Zhipu AI, Tang Jie, avait prédit le 13 mai que l'aboutissement des grands modèles serait leur évolution autonome, et que Claude aurait déjà mis en œuvre la ligne de base d'auto-entraînement : « écrire du code, nettoyer les données, s'entraîner soi-même ». Toutefois, Anthropic précise clairement dans son rapport que l'amélioration récursive complète, impliquant la conception et le développement autonomes d'un successeur, n'a pas encore été réalisée. Le rôle joué par l'IA dans la chaîne de développement est actuellement en transition, passant d'une simple amélioration partielle à une prise de décision autonome. Au deuxième trimestre 2026, chaque ingénieur d'Anthropic a fusionné en moyenne huit fois plus de code par jour qu'en 2024. Le processus de développement est désormais simple : les ingénieurs se contentent de définir les objectifs et d'effectuer des revues, tandis que Claude assume la rédaction et l'exécution concrètes. Anthropic a également déployé Claude comme réviseur automatique de code, chargé d'intercepter les bogues et les vulnérabilités de sécurité. Cela confirme que le pilier de « l'autocritique » identifié par Tang Jie est déjà mis en œuvre sur le plan technique, mais la revue humaine reste le dernier filet de sécurité. La fiabilité des modèles pour exécuter des tâches à long terme de manière autonome double également. La durée pendant laquelle un modèle peut travailler de manière autonome continue de doubler environ tous les quatre mois. En mars 2024, Claude 3 Opus ne pouvait traiter que des tâches simples d'une durée de 4 minutes. Un an plus tard, Claude 3.7 Sonnet pouvait tenir jusqu'à 1,5 heure. En mars 2026, Claude 4.6 Opus était déjà capable de gérer des tâches complexes de 12 heures. Selon les données de l'organisme d'évaluation METR, la dernière version préliminaire de Claude Mythos peut fonctionner de manière autonome pendant plus de 16 heures, approchant la limite actuelle des outils d'évaluation. À ce rythme, d'ici 2027, l'IA sera capable d'accomplir seuls des tâches scientifiques nécessitant plusieurs semaines de travail humain, permettant aux entreprises de passer d'une « entreprise à une personne » à une « entreprise sans personne ». Concernant la « ligne de base d'auto-entraînement » supposée par Tang Jie, le rapport révèle en réalité un « micro-cycle expérimental » partiel. Dans une expérience visant à accélérer le code d'entraînement des petits modèles, Claude 4 Opus en mai 2025 n'avait réussi qu'à accélérer le code de 3 fois, tandis que la version préliminaire de Claude Mythos en avril 2026 a atteint une accélération de 52 fois. En comparaison, les meilleurs chercheurs humains parviennent généralement à une accélération de 4 fois en 4 à 8 heures. Toutefois, les objectifs d'optimisation et les indicateurs de succès ont été définis à l'avance par des humains. Face à la chaîne complète et plus complexe — « nettoyer les données, générer des données synthétiques et s'entraîner soi-même » — l'IA manque encore de capacité décisionnelle. Cependant, la boucle autonome du processus de R&D pousse l'humanité vers le bord d'une perte totale du contrôle ultime du système. La prédiction de Tang Jie selon laquelle un « LLM OS » remplacera les architectures traditionnelles et générera des applications à la demande signifie que les ordinateurs exécuteront à l'avenir uniquement du code dynamique impossible à examiner à l'avance ; tandis que l'avertissement d'Anthropic selon lequel « la revue humaine ne suit plus l'évolution autonome de l'IA » signifie que nous ne pouvons même plus contrôler l'origine du code généré. Lorsque l'IA commencera à concevoir et entraîner elle-même ses successeurs, l'évolution du logiciel deviendra totalement une boîte noire. Une fois qu'une IA est autorisée à s'itérer sans audit humain au sein d'un système fermé, assurer ensuite la sécurité, la surveillance et l'alignement comportemental du système d'amélioration autonome deviendra extrêmement difficile.