Claude d'Anthropic « rêve » désormais pour améliorer les performances des agents IA

Les androïdes rêvent-ils ? S'ils rêvent, rêvent-ils de moutons électroniques ?

Subquadratique

Capture d'écran du film Blade Runner

En 1968, lorsqu'il a tapé cette question abstraite et visionnaire sur sa machine à écrire, l'auteur du roman original du film de science-fiction Blade Runner, Philip K. Dick, n'aurait probablement pas imaginé que, plus d'un demi-siècle plus tard, les géants de la technologie de la Silicon Valley répondraient avec un sérieux absolu.

Oui, ils peuvent non seulement rêver de moutons électroniques, mais aussi visualiser leurs rêves.

Hier, Anthropic a dévoilé, lors de la conférence des développeurs à San Francisco, une série de nouvelles fonctionnalités pour sa plateforme de construction d'agents, Managed Agents : extension de la mémoire, sortie de résultats, collaboration entre plusieurs agents et le « rêve » (Dreaming).

Selon Anthropic lui-même, « la mémoire et le rêve constituent ensemble un système de mémoire robuste et capable de s'améliorer soi-même ».

Subquadratique

Encore un rêve, encore une mémoire — les amis peu attentifs au domaine de l’IA doivent probablement se demander comment ces termes humains ont pu s’appliquer aussi naturellement à l’IA.

Dès 2024, lors du lancement de la série o1 par OpenAI, « une série de modèles d’IA conçus pour passer plus de temps à réfléchir avant de répondre », le mot « réfléchir » était utilisé de manière extrêmement naturelle, si naturelle que personne ne s’est arrêté pour demander : comment un programme qui prédit statistiquement le prochain token peut-il s’appeler réfléchir ?

Ensuite viennent reasoning (raisonnement), memory (mémoire), reflection (réflexion), Imagining (imagination), en transférant un par un les compétences propres à l’être humain sur la scène d’une présentation produit.

Subquadratique

Captures d'écran du film de Satoshi Kon, "Paprika"

« Penser » peut encore être interprété comme une métaphore, « mémoriser » peut à peine être considéré comme une extension du jargon technique, mais « rêver » va vraiment trop loin. Des milliers d’années de recherche en littérature, histoire et philosophie n’ont pas réussi à clarifier cela, et pourtant les entreprises d’IA affirment directement : nous avons non seulement créé des machines capables de penser, mais aussi des machines capables de rêver.

Qu'est-ce qu'un rêve ? N'y a-t-il aucun terme technique précis pour décrire cet événement autre qu'un rêve ?

Même les IA doivent payer pour rêver

Lors de la fuite de code de Claude Code, des internautes ont découvert qu'Anthropic préparait une fonction appelée Auto Dreaming. À l'époque, tout le monde se demandait si l'IA avait également besoin de dormir et de se reposer suffisamment pour devenir plus concentrée et plus intelligente, comme les êtres humains.

Subquadratique

Mais en comprenant le fonctionnement actuel des agents IA, on constate que ce qu'on appelle « rêver » n'est en réalité qu'un traitement par lots automatique de journaux hors ligne.

L'agent IA est désormais capable d'accomplir des tâches complexes à chaîne longue, comme « aide-moi à analyser les derniers résultats financiers de ces cinq concurrents et organise-les dans un tableau ». Pendant ce processus, l'agent doit naviguer entre différentes pages web, lire plusieurs documents, utiliser divers outils, et peut même devoir réessayer en cas de blocage par des mécanismes anti-scraping.

À la fin de cette longue série de tâches en ligne complexes, le backend de l'agent générera une quantité massive de journaux d'exécution.

Subquadratique

Image générée par IA

La fonction « rêver » d'Anthropic permet à l'agent de réexaminer ces historiques pendant les périodes d'inactivité. Il cherche des modèles, comme découvrir que « chaque fois qu'un tel popup apparaît, cliquer en haut à droite le ferme », afin d'optimiser le chemin d'action suivant.

La « mémoire » capture ce qui est appris pendant le travail, tandis que le « rêve » affine ces souvenirs entre les conversations et les partage entre différents agents.

In other words, it's a reinforcement learning and self-correction mechanism based on historical data.

Subquadratique

Présentation de Dream : https://platform.claude.com/docs/en/managed-agents/dreams

Lors de cette conférence développeur, les Dreams dans les Managed Agents ont été mis à jour ; il s'agit d'une tâche traitée en arrière-plan que nous devons déclencher manuellement. Claude peut lire jusqu'à 100 sessions d'historique de conversation à la fois, puis générer une nouvelle mémoire que nous pouvons examiner avant de décider de l'utiliser.

AutoDream, déjà en ligne discrètement dans Claude Code, vérifie en arrière-plan après chaque conversation avec l'Agent s'il faut « faire un rêve » ; par défaut, cela se produit toutes les 24 heures.

Hermes Agent possède également une fonction similaire à « rêver ». Son principal atout est sa capacité à s'apprendre et à évoluer automatiquement ; il peut extraire des expériences des tâches passées et les stocker dans des fichiers mémoire.

Subquadratique

L'une des fonctionnalités, appelée Curator, peut également organiser automatiquement ces guides d'opération en compétences.

Ces compétences seront évaluées, les doublons fusionnés, celles non utilisées depuis longtemps archivées automatiquement, et elles suivent même un cycle de vie avec des états tels que active, stale et archived. Nous pouvons également épingler les compétences importantes pour empêcher le système de les supprimer automatiquement.

OpenClaw a également ajouté des mécanismes associés dans ses dernières mises à jour, tels que la mémoire persistante entre conversations, l'ordonnancement de tâches planifiées, l'exécution isolée des sous-agents, ainsi que la fonction de rêve directe appelée Dreaming.

Subquadratique

Le rêve d'OpenClaw : https://docs.openclaw.ai/concepts/dreaming

Dans le mécanisme de rêve d'OpenClaw, il résume le trajet du rêve en trois phases : light, REM, deep. Les deux premières servent à organiser, réfléchir et synthétiser les thèmes, tandis que deep écrit véritablement le contenu dans MEMORY.md.

Subquadratique

La consolidation durant la phase de sommeil profond est déterminée par six signaux pondérés : fréquence, pertinence, diversité des requêtes, actualité, répétition sur plusieurs jours et richesse conceptuelle.

Subquadratique

Image générée par IA

Écriture dans la mémoire à long terme : deux fichiers seront générés, un fichier d'état destiné aux machines placé dans memory/.dreams/ et un enregistrement lisible par l'utilisateur, écrit dans DREAMS.md et des rapports générés par phase.

De plus, Dreaming peut s'exécuter automatiquement à heure fixe, effectuant un cycle complet chaque jour à 3 h du matin dans l'ordre suivant : light → REM → deep.

En plus de la sortie des rêves, OpenClaw maintient un document appelé Dream Diary, dans lequel le système génère automatiquement un « journal de rêves » qui relate de manière narrative le processus d'organisation des souvenirs, en mettant l'accent sur l'explicabilité et la traçabilité, et non sur une boîte noire.

Dans les neurosciences, il existe une compréhension très classique : les informations acquises pendant la journée sont d'abord stockées dans un système temporaire ; pendant le sommeil, le cerveau rejoue, consolide et nettoie ces informations, en conservant ce qui est important et en éliminant ce qui n'a pas de sens.

Subquadratique

Image générée par IA

Nous ne nous souviendrons pas de la couleur de chaque voiture que nous avons croisée en allant au travail hier, mais nous nous souviendrons du chemin pour nous y rendre.

Ces rêves, ils semblent bien ressembler à ceux que nous faisons, et si on doit trouver une différence, c’est probablement que lorsque Claude rêve, il consomme toujours nos tokens.

Mais Anthropic et OpenClaw n'ont pas choisi de l'appeler « optimisation basée sur la session » ou « ajustement post-tâche », des noms plus orientés ingénierie.

Après tout, lorsqu'on transforme ces noms complexes directement en « rêver », ce que nous ressentons n'est plus une fonction logicielle, mais plutôt une « vie numérique dotée d'émotions ».

La mémoire de l'IA est un contexte minuscule.

Puisqu'il est question de « rêver », il faut inévitablement mentionner sa condition préalable : la mémoire (Memory).

Au cours de la période récente, le terme le plus populaire dans le domaine de l'IA est passé de la prompt engineering à la context engineering, à la skill engineering et à la harness engineering, mais quel que soit le changement, la context engineering reste actuellement la plus précieuse.

Les notifications système, les entrées utilisateur, les conversations courtes, la mémoire à long terme, les documents récupérés, les sorties des appels d'outils et de compétences, ainsi que l'état actuel de l'utilisateur, ensemble, constituent le « contexte » réellement utilisé par l'agent.

Permettre à l'agent de se souvenir de davantage et d'enregistrer des contenus plus utiles a toujours été un défi majeur depuis longtemps.

Subquadratique

Manus a publié l'année dernière un blog technique dédié à la manière dont Manus optimise l'ingénierie du contexte. Il mentionnait la définition du taux de réussite du cache KV comme l'un des indicateurs uniques les plus importants pour les agents IA en production, ainsi que des méthodes telles que privilégier le « masquage » plutôt que la « suppression » au niveau de l'appel d'outils, et utiliser le système de fichiers comme contexte ultime.

Pour comprendre ce qu'on appelle le KV Cache (cache clé-valeur), imaginez un grand modèle comme un patient extrêmement obsessionnel-compulsif qui ne peut lire qu'un seul caractère à la fois.

Lorsqu'il traite une phrase, il calcule un vecteur Key (clé) et un vecteur Value (valeur) pour chaque token généré. Pour éviter de recalculer à chaque fois depuis le début, il stocke ces paires clé-valeur (K, V), ce qui constitue le KV Cache.

Subquadratique

Le KV Cache (cache clé-valeur) est une technique d'accélération fondamentale utilisée par les grands modèles lors de la génération de texte, permettant de « troquer de l'espace contre du temps ». Le cache évite au modèle de recalculer tous les mots précédents lors de la prédiction du mot suivant. Image générée par IA.

Tant que la conversation se poursuit, le KV Cache est constamment enregistré. En général, face à des modèles de grande taille avec des contextes de 128k, un modèle de 70 milliards de paramètres consommant un contexte complet de 128k peut absorber uniquement avec le KV Cache jusqu'à 64 Go de mémoire GPU.

C'est aussi pourquoi la fenêtre de contexte de la plupart des modèles est actuellement limitée à quelques millions au maximum.

Hier, la nouvelle entreprise Subquadratic, qui a levé 29 millions de dollars en financement de série seed, a publié sur X un nouveau modèle SubQ mettant l'accent sur un contexte plus long.

Subquadratique

SubQ affirme prendre en charge une fenêtre de contexte allant jusqu'à 12 millions de jetons, la plus grande fenêtre de contexte actuellement disponible parmi tous les grands modèles.

Bien qu'il n'y ait pas encore de papier technique ni de documentation du modèle, la vidéo de présentation mentionne que la ligne directrice technologique principale de SubQ consiste à passer de l'« attention dense » traditionnelle des Transformer à une architecture « sous-quadratique / linéaire » avec attention clairsemée. Cette nouvelle architecture vise à résoudre le problème de l'explosion des coûts de calcul à mesure que le contexte s'allonge.

Subquadratique

Les résultats du test sont également très ambitieux : avec 1 million de tokens, la vitesse augmente de plus de 50 fois et les coûts diminuent de plus de 50 fois ; avec 12 millions de tokens, la demande en puissance de calcul est réduite de près de 1000 fois par rapport aux modèles les plus avancés.

Sur le benchmark RULER 128K de long contexte, Subquadratic affirme que SubQ atteint une précision de 95 % à un coût de 8 dollars, contre 94 % de précision et un coût d'environ 2600 dollars pour Claude Opus, soit une réduction des coûts d'environ 300 fois.

Soit élargir la fenêtre de contexte, soit faire en sorte que le modèle apprenne à rêver et à éliminer certains éléments lui-même.

C'est aussi pourquoi les produits d'agents comme Anthropic doivent désormais introduire Dreaming. Dans un contexte de fenêtre limitée, une IA plus intelligente ne peut pas simplement s'appuyer sur l'ajout de plus de contenu ; elle doit agir de manière ciblée.

Admettre que les machines ne sont que des machines est plus difficile qu'on ne le pense

En comprenant les mécanismes de rêve et de mémoire de l'IA, nous pourrions mieux saisir son lien avec les activités humaines.

Mais en rassemblant tous ces termes créés par ces entreprises d’IA pour les machines — la réflexion (thinking) d’OpenAI, la mémoire (memory) et l’hallucination (hallucination) couramment utilisées dans l’industrie, le rêve (dreaming) de cette fois-ci d’Anthropic, ainsi que les vertus et la sagesse de la constitution d’Anthropic.

Nous pouvons constater que les entreprises d'IA ne se contentent pas de vendre des produits ; elles réassignent la propriété des termes liés au concept de « l'humain ». Chaque emprunt de mot floute un peu plus la frontière entre la machine et l'homme.

Subquadratique

Le langage façonne les attentes, les attentes façonnent la tolérance, et la tolérance détermine la quantité de choses que nous sommes prêts à lui confier. C'est une chaîne longue, mais le point de départ est ces mots inoffensifs lors de la conférence de presse.

Un impact plus subtil concerne la répartition des responsabilités. Lorsqu’un outil est décrit comme une entité capable de « penser », de « se souvenir » ou d’avoir des « valeurs », nous avons tendance, en cas de problème, à le considérer comme un « agent autonome » et à lui attribuer la responsabilité, comme s’il fallait « éduquer », « déboguer » ou « calibrer » cet IA.

Ce qu’il faudrait vraiment remettre en question, c’est l’entreprise qui a déployé ce programme dans notre flux de travail, ainsi que l’équipe produit qui a écrit le mot « dreaming ». Dès que le mot change, la personne assise sur le banc des accusés change aussi.

Et en regardant une machine qui « pense », qui « se souvient », et qui maintenant « rêve », nous commençons inconsciemment à croire qu’il y a quelque chose à l’intérieur. Car admettre que ce n’est qu’une machine fait disparaître l’expérience de « je suis en train de converser avec un être capable de penser » pour retrouver une relation froide et instrumentale.

Subquadratique

Présentation de la fonction Daydream | Image générée par IA

J'ai pensé que Dreaming, le rêve, traite du passé, et que les entreprises d'IA vont bientôt lancer Daydreaming, le rêve éveillé, pour simuler l'avenir.

L’idée consiste à ce que, lorsqu’il est en état d’activité, l’Agent utilise une petite partie de sa capacité de calcul inutilisée, en combinant le projet en cours, pour effectuer une génération exploratoire et se préparer aux tâches futures.

Cet article provient du compte officiel WeChat « APPSO », auteur : APPSO, à la découverte des produits de demain