Des experts discutent de l'impact d'OpenClaw sur les agents IA et les défis informatiques

Auteur : Chen Junda

Le 27 mars, selon Zhi Dong Xi, lors du Forum de Zhongguancun, Zhang Peng, PDG de Zhipu, Yang Zhilin, PDG de Moonshot (animant la discussion), Luo Fuli, responsable du grand modèle MiMo de Xiaomi, Xia Lixue, PDG de Wuwen Xinqiong, et le professeur adjoint Huang Chao de l'Université de Hong Kong se sont réunis rarement pour un échange approfondi sur l'avenir des grands modèles open source et des agents intelligents.

Cette discussion commence par OpenClaw, le sujet le plus populaire actuellement, et les invités sont unanimes : les agents permettent aux grands modèles de commencer réellement à « travailler ». OpenClaw étend les limites des capacités des grands modèles, mais impose également des exigences plus élevées. Zhipu étudie actuellement des capacités telles que la planification à long terme et l'auto-débogage, tandis que l'équipe de Luo Fuli se concentre davantage sur la réduction des coûts et l'accélération des performances grâce à des innovations architecturales, voire sur la réalisation d'une auto-évolution du modèle.

L'infrastructure doit également suivre le rythme des agents. Xia Lixue estime que les systèmes de calcul et les architectures logicielles actuels sont encore conçus pour les humains, et non pour les agents, ce qui limite en réalité les possibilités des agents par les capacités opérationnelles humaines. Nous devons donc créer une infrastructure agente.

Aux yeux de plusieurs invités, l'open source est l'une des forces motrices essentielles du développement des grands modèles et des agents. Le professeur adjoint à l'Université de Hong Kong, Huang Chao, estime que la prospérité de l'écosystème open source est cruciale pour que les agents passent de simples expériences à de véritables « travailleurs ». Seule la collaboration communautaire permettra de faire évoluer les logiciels, les données et les technologies vers une forme entièrement native aux agents, afin de créer enfin un écosystème mondial durable d'IA.

En outre, plusieurs invités ont débattu de sujets tels que la hausse des coûts des grands modèles, l'explosion de l'utilisation des tokens et les mots-clés pour l'IA au cours des 12 prochains mois. Voici les points clés de cette table ronde :

1. Zhang Peng : Lorsque les modèles deviennent plus grands, les coûts d'inférence augmentent également en conséquence. La récente stratégie de hausse des prix de Zhipu revient en fait à une valorisation commerciale normale ; une concurrence à bas prix à long terme nuit au développement du secteur.

2. Zhang Peng : L'explosion de nouvelles technologies telles que les agents intelligents a fait augmenter la demande de jetons de dix fois, mais la demande réelle pourrait avoir augmenté de cent fois, ce qui signifie qu'une grande partie de la demande reste insatisfaite ; par conséquent, la puissance de calcul reste un enjeu clé pour les 12 prochains mois.

3. Luo Fuli : Du point de vue des fournisseurs de grands modèles de base, OpenClaw garantit le niveau minimum des grands modèles de base et élève leur niveau maximum. Le taux d'accomplissement des tâches des modèles open source chinois + OpenClaw est désormais très proche de celui de Claude.

4. Luo Fuli : DeepSeek a apporté du courage et de la confiance aux fabricants chinois de grands modèles. Certaines innovations structurelles de modèles, apparemment conçues pour compromettre l'efficacité, ont déclenché une véritable révolution, permettant à l'industrie d'atteindre le niveau d'intelligence le plus élevé possible avec une puissance de calcul donnée.

5. Luo Fuli : L'événement le plus important dans le parcours de l'AGI au cours de la prochaine année est l'« auto-évolution ». L'auto-évolution permet aux grands modèles d'explorer comme des scientifiques de premier plan et constitue le seul moyen de « créer quelque chose de nouveau ». Xiaomi a déjà augmenté l'efficacité de la recherche de 10 fois en utilisant Claude Code + des modèles de pointe.

6. Xia Lixue : À l'ère de l'AGI, les infrastructures elles-mêmes devraient être des agents, gérant automatiquement l'ensemble des infrastructures et les faisant évoluer en fonction des besoins des clients IA, pour réaliser une auto-évolution et une auto-itération.

7. Xia Lixue : OpenClaw a déclenché une explosion de la consommation de jetons. La vitesse actuelle de consommation des jetons ressemble à celle de la période initiale de la technologie 3G, où l'on disposait seulement de 100 Mo de données par mois.

8. Huang Chao : Dans le futur, de nombreux logiciels ne seront pas conçus pour les humains ; les logiciels, les données et les technologies évolueront vers une forme native Agent-Native, et les humains n'auront peut-être plus besoin que d'utiliser ces « interfaces graphiques qui leur procurent du plaisir ».

Voici le transcript complet de cette table ronde :

01. OpenClaw est simplement un « échafaudage » ; la consommation de tokens des grands modèles reste à l'ère du 3G

Yang Zhilin : C'est un grand honneur pour moi d'accueillir aujourd'hui des invités aussi prestigieux, provenant des niveaux modèle, calcul et agent. Le mot-clé principal d'aujourd'hui est l'open source, suivi de l'agent.

La première question porte sur OpenClaw, actuellement le plus populaire. Quels sont les aspects les plus imaginatifs ou les plus marquants que les utilisateurs rencontrent quotidiennement avec OpenClaw ou des produits similaires ? Du point de vue technique, comment voyez-vous l'évolution d'OpenClaw et des agents associés aujourd'hui ?

Zhang Peng : J'ai commencé à jouer à OpenClaw il y a longtemps, à l'époque où il s'appelait encore Clawbot. J'ai fait moi-même les modifications, étant donné que je suis programmeur, j'ai eu quelques expériences personnelles avec ces choses-là.

Je pense que la plus grande avancée, ou le plus grand nouvel aspect apporté par OpenClaw, c’est qu’il n’est plus réservé aux programmeurs ou aux passionnés de technologie. Les utilisateurs ordinaires peuvent désormais accéder plus facilement aux capacités des modèles de pointe, notamment en matière de programmation et d’agents intelligents.

Donc, au cours de mes échanges avec vous jusqu'à présent, je préfère désigner OpenClaw comme un « échafaudage ». Il offre une possibilité, en établissant un échafaudage solide, pratique, mais également flexible sur la base du modèle. Vous pouvez utiliser, selon vos préférences, de nombreuses fonctionnalités innovantes fournies par les modèles sous-jacents.

Auparavant, mes propres idées pouvaient être limitées par mon incapacité à coder ou par mon manque d'autres compétences connexes ; aujourd'hui, avec OpenClaw, je peux enfin les réaliser grâce à une interaction très simple.

OpenClaw m'a profondément impressionné, ou m'a fait redécouvrir cette chose.

Xia Lixue : En réalité, au début, j'ai eu du mal à m'adapter à OpenClaw, car j'étais habituée à interagir avec de grands modèles ; après l'avoir utilisé, j'ai eu l'impression qu'OpenClaw répondait trop lentement.

Mais j'ai ensuite réalisé un problème : il diffère grandement des chatbots précédents, car il est essentiellement une « personne » capable de m'aider à accomplir de grandes tâches. En soumettant des tâches plus complexes, j'ai constaté qu'il les exécutait très bien.

Cet événement m'a profondément touché. Le modèle, qui au départ discutait par tokens, est désormais devenu un agent, capable de se transformer en écrevisse pour vous aider à accomplir des tâches. Cela élargit considérablement l'espace d'imagination pour l'IA dans son ensemble.

En même temps, les exigences en matière de capacité pour l'ensemble du système deviennent très élevées. C'est pourquoi, au départ, j'ai trouvé OpenClaw un peu lent. En tant que fournisseur de couche d'infrastructure, je vois que OpenClaw ouvre de nouvelles opportunités et défis pour les grands systèmes et l'écosystème sous-jacents à l'IA.

Les ressources dont nous disposons actuellement ne suffisent pas pour soutenir une ère de croissance aussi rapide. Par exemple, chez notre entreprise, depuis la fin janvier, notre consommation de tokens double environ toutes les deux semaines, soit une augmentation d’environ 10 fois à ce jour.

La dernière fois que j’ai vu cette vitesse, c’était quand j’utilisais un téléphone 3G et que je consommais mon forfait données. J’ai l’impression que la consommation actuelle de tokens ressemble à l’époque où l’on n’avait que 100 Mo de données par mois.

Dans ce contexte, nous devons optimiser et intégrer mieux toutes nos ressources, afin que chacun, non seulement dans le domaine de l’IA, mais dans l’ensemble de la société, puisse utiliser les capacités d’IA d’OpenClaw.

En tant que joueur de l'infrastructure, je suis très enthousiaste et profondément touché par cette ère. Je pense également qu'il existe de nombreuses opportunités d'optimisation que nous devons encore explorer et essayer.

02. OpenClaw élève la limite des modèles nationaux ; la rupture de l'interaction revêt une importance majeure

Luo Fuli : Je considère OpenClaw comme un événement révolutionnaire et disruptif dans l'évolution du cadre d'agents.

En réalité, tous ceux autour de moi qui effectuent un codage très approfondi choisissent toujours en premier lieu Claude Code. Cependant, je crois que les utilisateurs d’OpenClaw ressentiront que de nombreuses conceptions de son framework Agent sont en avance sur celles de Claude Code. Récemment, de nombreuses mises à jour de Claude Code visent à se rapprocher d’OpenClaw.

Lorsque j'utilise OpenClaw, je ressens que ce cadre étend infiniment mon imagination, n'importe où et à tout moment. Claude Code ne pouvait initialement étendre mes idées que sur mon bureau, tandis qu'OpenClaw permet d'étendre mes idées à tout moment et en tout lieu.

Les deux valeurs principales apportées par OpenClaw sont les suivantes. La première est qu'il est open source. Le fait d'être open source favorise grandement la participation approfondie de la communauté, ainsi que l'attention et la promotion de l'évolution de ce cadre, ce qui constitue une condition préalable essentielle.

Je pense qu'une grande valeur des cadres d'IA comme OpenClaw réside dans le fait qu'il élève considérablement la limite des modèles nationaux, dont les performances sont proches des modèles propriétaires mais n'ont pas encore complètement rattrapé le niveau.

Dans la majorité des scénarios, vous constaterez que sa performance en termes de accomplissement des tâches est très proche du dernier modèle de Claude. En outre, il garantit efficacement une performance minimale — grâce à un système Harness, ou à travers la conception de son système de compétences, entre autres, assurant l’intégralité et la précision des tâches.

En résumé, du point de vue des développeurs des fournisseurs de grands modèles de base, OpenClaw garantit le niveau minimum des grands modèles de base et élève leur niveau maximum.

En outre, je pense qu'une autre valeur qu'il apporte à l'ensemble de la communauté est qu'il a éveillé la conscience de tous, révélant que la couche des agents recèle un immense potentiel au-delà des grands modèles.

J'ai également remarqué que, dans la communauté, de plus en plus de personnes, en dehors des chercheurs, participent à la révolution de l'AGI, et commencent à utiliser des cadres d'agents plus puissants comme Harness et Scaffold. Ces personnes utilisent en quelque sorte ces outils pour remplacer une partie de leur travail, tout en libérant du temps pour s'engager dans des activités plus imaginatives.

Huang Chao : Je pense que, du point de vue du modèle d'interaction, la raison principale pour laquelle OpenClaw a connu un tel succès est qu'il offre une expérience plus « humaine ». Nous développons des agents depuis environ un à deux ans, mais auparavant, des agents comme Cursor ou Claude Code donnaient plutôt l'impression d'être des « outils ». OpenClaw, pour la première fois, intègre cette fonctionnalité via un logiciel de messagerie instantanée, créant une sensation plus proche de ce que l'on imagine comme un « Jarvis personnel ». Je pense que c'est peut-être une avancée majeure en termes de modèle d'interaction.

Un autre point : il démontre une fois de plus la faisabilité de cadres simples mais efficaces comme Agent Loop. Il nous pousse également à repenser une question fondamentale : avons-nous besoin d’un super-agent tout-en-un capable de tout faire, ou préférons-nous un « petit gestionnaire » plus performant, comme un système d’exploitation léger ou une structure de soutien ?

L'idée apportée par OpenClaw est de créer un « petit système » ou un « système d'exploitation pour homard » avec son écosystème, afin que les utilisateurs adoptent véritablement une mentalité de jeu, ce qui permettra de mobiliser tous les outils au sein de l'écosystème.

Avec l'apparition de compétences telles que Skills et Harness, de plus en plus de personnes peuvent concevoir des applications destinées à des systèmes comme OpenClaw, pour赋能各个行业. Je pense que cela s'articule naturellement étroitement avec l'écosystème open source. À mes yeux, ces deux points constituent nos plus grandes inspirations.

03. GLM : Le nouveau modèle conçu pour "travailler", la hausse des prix correspond à un retour à la valeur commerciale normale

Yang Zhilin : Je voudrais poser une question à Zhang Peng. Récemment, j'ai appris que Zhipu a lancé le nouveau modèle GLM-5 Turbo, et je comprends qu'il y a eu une amélioration significative des capacités Agent. Pourriez-vous nous présenter les différences entre ce nouveau modèle et les autres modèles ? Par ailleurs, nous avons également observé une stratégie de hausse des prix ; quel signal cela envoie-t-il sur le marché ?

Zhang Peng : C'est une excellente question. Il y a quelques jours, nous avons effectivement effectué une mise à jour d'urgence, ce qui fait en réalité partie de notre feuille de route de développement, mais que nous avons simplement avancée.

L'objectif principal est de passer du « simple dialogue » à « faire vraiment du travail » — ce que tout le monde ressent récemment : les grands modèles ne se contentent plus de discuter, ils aident véritablement à accomplir des tâches.

Mais les compétences sous-jacentes à « faire le travail » sont très exigeantes. Le modèle doit planifier lui-même des tâches à long terme, expérimenter et corriger ses erreurs, compresser le contexte, déboguer, et peut-être même traiter des informations multimodales. Ainsi, les exigences en matière de capacité du modèle diffèrent en réalité de celles des modèles généraux traditionnels orientés dialogue. GLM-5 Turbo a été spécifiquement renforcé dans ces domaines, notamment — comme vous l'avez mentionné — pour lui permettre de travailler et de fonctionner pendant 72 heures sans interruption, en maintenant un bouclage continu ; nous avons accompli de nombreux travaux dans ce sens.

De plus, les utilisateurs s'intéressent beaucoup à la consommation de tokens. Faire effectuer des tâches complexes à un modèle intelligent génère une consommation de tokens très élevée. Les utilisateurs ordinaires peuvent ne pas en être pleinement conscients, mais ils constatent rapidement que leur facture diminue rapidement. Nous avons donc effectué des optimisations à ce niveau : lors de tâches complexes, le modèle utilise une efficacité de tokens plus élevée pour accomplir ces tâches. Dans l'ensemble, l'architecture du modèle reste une architecture générale collaborative multi-tâches, mais avec des capacités renforcées de manière ciblée.

Le fait d'augmenter les prix est en réalité assez facile à expliquer. Comme mentionné précédemment, il ne s'agit plus simplement de poser une question et d'obtenir une réponse ; la chaîne de raisonnement sous-jacente est extrêmement longue. De nombreuses tâches nécessitent d'interagir avec du code et des infrastructures de base, ainsi qu'une correction continue d'erreurs, ce qui consomme énormément de ressources. Le nombre de tokens requis pour accomplir une tâche complexe peut être dix fois, voire cent fois, supérieur à celui nécessaire pour répondre à une question simple.

Ainsi, le prix doit augmenter légèrement, le modèle a été agrandi et les coûts d’inférence ont augmenté en conséquence. Nous revenons à une valeur commerciale normale, car une concurrence basée sur des prix bas à long terme ne favorise pas le développement de l’ensemble du secteur. C’est aussi ce qui permet de créer une boucle commerciale vertueuse, d’optimiser en continu les capacités du modèle et de vous offrir un meilleur service.

04. Créer une usine de tokens plus efficace : l'infrastructure elle-même doit également être un Agent

Yang ZhiLin : De plus en plus de modèles open source émergent et commencent à former un écosystème, permettant à divers modèles d'offrir davantage de valeur aux utilisateurs sur différentes plateformes de calcul. Avec l'explosion de l'utilisation des tokens, les grands modèles passent progressivement de l'ère de l'entraînement à l'ère de l'inférence. Je voudrais demander à Li Xue ce que l'ère de l'inférence signifie pour WUWEN du point de vue des infrastructures.

Xia Lixue : Nous sommes un fournisseur d'infrastructure né à l'ère de l'IA, et nous soutenons actuellement des entités comme Zhipu, Kimi et Mimo, afin que les utilisateurs puissent exploiter plus efficacement leurs usines de jetons. Nous collaborons également avec de nombreuses universités et instituts de recherche.

Nous avons donc constamment réfléchi à une question : quelles infrastructures sont nécessaires à l’ère de l’AGI ? Et comment pouvons-nous progressivement les réaliser et les anticiper ? Nous sommes désormais pleinement préparés pour les défis à court, moyen et long terme.

Le problème le plus immédiat actuel est celui que tout le monde vient d'évoquer : l'augmentation soudaine du volume de tokens associés à Open a accru les exigences en matière d'optimisation de l'efficacité du système. La réajustement des prix est, en réalité, une réponse à cette exigence.

Nous avons toujours adopté une approche intégrée logicielle et matérielle pour planifier et résoudre ces problèmes. Par exemple, nous avons intégré presque tous les types de puces de calcul, reliant uniformément une dizaine de puces différentes en Chine et des dizaines de clusters de puissance de calcul distincts. Cela permet de résoudre la pénurie de ressources de calcul dans les systèmes d’IA : lorsque les ressources sont insuffisantes, la meilleure solution consiste à utiliser toutes les ressources disponibles, puis à orienter chaque unité de calcul vers les tâches les plus critiques pour maximiser son efficacité de transformation.

À ce stade, notre objectif est de créer une usine de jetons plus efficace. Nous avons réalisé de nombreuses optimisations, notamment une adaptation optimale entre le modèle et les ressources matérielles telles que la mémoire GPU, tout en explorant si les dernières architectures de modèles et de matériel peuvent générer une synergie plus profonde. Toutefois, résoudre les problèmes d’efficacité actuels ne constitue qu’un premier pas vers la création d’une usine de jetons standardisée.

Face à l'ère des Agents, nous pensons que cela ne suffit pas. Car un Agent ressemble davantage à une personne à qui l'on peut confier une tâche. Je suis fermement convaincu que beaucoup des infrastructures de l'ère du cloud computing ont été conçues pour servir un programme ou des ingénieurs humains, et non pour l'IA. Cela revient à créer une infrastructure avec une interface destinée aux humains, puis à ajouter une couche supplémentaire pour connecter les Agents — une approche qui limite en réalité le potentiel des Agents en le soumettant aux capacités humaines.

Par exemple, un agent peut réfléchir et lancer des tâches à l'échelle de la milliseconde, mais les capacités sous-jacentes comme K8s (Kubernetes) ne sont pas conçues pour cela, car les humains lancent généralement des tâches à l'échelle de la minute. Nous avons donc besoin de capacités encore plus avancées, que nous appelons « Agentic Infra », soit une « usine à tokens intelligente » — c’est exactement ce que Wuenxiong développe.

Sur le long terme, à l’arrivée véritable de l’ère de l’AGI, nous pensons que même l’infrastructure elle-même devrait être un agent. La usine que nous avons conçue devrait également être capable de s’auto-évoluer et de s’auto-itérer, formant ainsi une organisation autonome. Elle équivaudrait à un PDG, qui serait lui-même un agent — peut-être OpenClaw — chargé de gérer l’ensemble de l’infrastructure, de définir automatiquement ses propres besoins et de l’itérer en fonction des demandes des clients IA. Seule ainsi une meilleure couplage entre IA et IA sera possible. Nous menons également des explorations, comme améliorer la communication entre agents et développer des capacités telles que Cache to Cache.

Nous avons donc toujours pensé que le développement des infrastructures et de l’IA ne devrait pas être un processus isolé — je reçois une demande et je l’implémente — mais devrait générer une réaction chimique très riche. C’est là que réside véritablement la synergie logiciel-hardware, la synergie entre algorithmes et infrastructures, et c’est précisément la mission que WUWEN XIONG cherche constamment à accomplir. Merci.

05. L'innovation qui compromet l'efficacité a aussi du sens ; DeepSeek apporte du courage et de la confiance à l'équipe nationale

Yang Zhilin : Je voudrais maintenant poser une question à Fu Li. Récemment, Xiaomi a apporté une grande contribution à la communauté en lançant de nouveaux modèles et en open-sourçant les technologies sous-jacentes. Je voudrais vous demander : selon vous, quelles sont les avantages uniques de Xiaomi dans le domaine des grands modèles ?

Luo Fuli : Je pense qu'on peut d'abord mettre de côté la question des avantages uniques de Xiaomi ; je préfère discuter des forces globales des équipes chinoises développant de grands modèles. Je pense que ce sujet a une valeur plus large.

Il y a environ deux ans, les équipes de modèles de base en Chine ont déjà réalisé de très bonnes avancées — nous avons cherché à surmonter les limites de ces ressources de calcul inférieures, notamment sous des contraintes de bande passante NVLink limitée, en innovant sur la structure des modèles, comme si nous faisions des compromis en faveur de l'efficacité, par exemple avec les séries DeepSeek V2 et V3, ainsi que MoE, MLA, etc.

Mais nous avons ensuite constaté que ces innovations ont déclenché une transformation : comment atteindre le niveau d'intelligence le plus élevé possible avec une puissance de calcul donnée. C'est ce que DeepSeek a apporté comme courage et confiance à toutes les équipes de modèles de base en Chine. Bien que nos puces nationales, en particulier les puces d'inférence et les puces d'entraînement, ne soient plus soumises à ces limitations aujourd'hui, c'est précisément dans ce contexte de contraintes que nous avons été amenés à explorer de nouvelles architectures de modèles visant une efficacité d'entraînement supérieure et des coûts d'inférence réduits.

Comme les architectures récemment apparues telles que Hybrid Sparse et Linear Attention, par exemple NSA de DeepSeek et KSA de Kimi, Xiaomi dispose également de HySparse, une architecture orientée vers la prochaine génération. Il s'agit d'innovations architecturales distinctes de la génération actuelle MoE, conçues pour l'ère des Agents.

Pourquoi trouve-je l'innovation structurelle si importante ? En réalité, ceux qui utilisent véritablement OpenClaw constatent qu'il devient de plus en plus facile à utiliser et de plus en plus intelligent avec le temps. L'un des prérequis est la longueur du contexte d'inférence. Le contexte long est un sujet dont nous discutons depuis longtemps, mais existe-t-il actuellement des modèles capables de bien performer, avec une puissance élevée et un coût d'inférence faible sur des contextes longs ?

En réalité, de nombreux modèles sont capables de gérer des contextes de 1M ou 10M, mais le coût et la lenteur de l'inférence pour ces longs contextes sont trop élevés. Seuls une réduction des coûts et une accélération des performances permettront de confier aux modèles des tâches à haute valeur productivité, d'accomplir des tâches de complexité supérieure dans de tels contextes longs, voire d'atteindre une auto-itération du modèle.

L'auto-itération du modèle consiste à permettre à celui-ci, dans un environnement complexe, d'accomplir son propre développement grâce à un contexte extrêmement long. Ce développement peut concerner le cadre Agent lui-même, ou bien les paramètres du modèle — car je considère que le contexte lui-même constitue en réalité une forme d'évolution des paramètres. Ainsi, la manière de concevoir une architecture à long contexte, ainsi que d'assurer un raisonnement efficace à long contexte lors de l'inférence, constitue une compétition globale.

Outre la phase de pré-entraînement que j'ai mentionnée précédemment, qui consiste à concevoir une architecture efficace pour les longs contextes — un problème que nous explorons depuis environ un an — la véritable innovation que nous itérons actuellement dans la phase de post-entraînement vise à garantir la stabilité et une performance élevée sur les tâches à long terme.

Nous réfléchissons à la conception d’algorithmes d’apprentissage plus efficaces, à la collecte de textes possédant réellement des dépendances à long terme dans des contextes de 1M, 10M et 100M en environnement réel, ainsi qu’à l’intégration de données de trajectoires générées par des environnements complexes. C’est ce que nous faisons actuellement lors de la post-formation.

Mais à plus long terme, en raison de l'évolution rapide des grands modèles eux-mêmes, combinée à l'ajout du cadre Agent, comme Lixue l'a mentionné, la demande en inférence a augmenté d'environ dix fois au cours de la période récente. Alors, la croissance totale de l'utilisation de tokens cette année atteindra-t-elle 100 fois ?

Ici, la compétition entre dans une autre dimension : la puissance de calcul, ou les puces d’inférence, voire même jusqu’à l’énergie. Je pense donc que si nous réfléchissons tous ensemble à cette question, je pourrais apprendre encore plus de vous. Merci.

06. Agent dispose de trois modules clés ; l'explosion des agents multiples apportera un choc

Yang Zhilin : Un partage très perspicace. Maintenant, je voudrais poser une question à Huang Chao : vous avez développé des projets d'agents influents comme Nanobot et disposez de nombreux fans dans la communauté. Du point de vue de l'exploitation ou de l'application des agents, quels axes technologiques pensez-vous être les plus importants et mériter l'attention de tous ?

Huang Chao : Je pense que si l'on abstractise la technologie des agents, les modules clés sont Planning, Memory et Tool Use.

Commençons par la planification. Le problème actuel réside principalement dans les tâches à long terme ou les contextes très complexes, comme des séquences de 500 étapes ou plus, où de nombreux modèles ne parviennent pas à planifier efficacement. Je pense que, fondamentalement, les modèles manquent peut-être de ce type de connaissance implicite, particulièrement dans certains domaines verticaux complexes. Ainsi, une piste future pourrait consister à intégrer de manière permanente les connaissances relatives à diverses tâches complexes au sein des modèles.

Bien sûr, Skill et Harness atténuent en partie les erreurs apportées par Planning, car ils fournissent des Skill de haute qualité, guidant ainsi le modèle pour accomplir certaines tâches plus complexes.

Parlons encore de Memory. Memory donne l’impression de toujours présenter des problèmes de compression d’informations inexactes et de récupération imprécise. En particulier, dans les tâches à long terme et les scénarios complexes, la charge sur Memory augmente considérablement. Actuellement, des projets comme OpenClaw utilisent tous un système de fichiers simple basé sur un format Markdown, en partageant des fichiers. À l’avenir, Memory devrait évoluer vers une conception hiérarchique et nécessitera d’être rendu plus universel.

Honnêtement, le mécanisme Memory actuel est difficile à rendre universel — car les scénarios de codage, de recherche approfondie et de multimodalité présentent des différences importantes dans leurs modalités de données. Réaliser une recherche et une indexation efficaces de ces Memory tout en conservant une performance élevée reste toujours un compromis.

De plus, maintenant qu'OpenClaw a considérablement abaissé les barrières à la création d'agents, il pourrait y avoir non plus un seul « homard », mais plusieurs. Je vois que Kimi a également mis en place un mécanisme appelé Agent Swarm ; à l'avenir, chaque personne pourrait avoir « un groupe de homards ».

Comparer à un seul homard, l’augmentation contextuelle apportée par un groupe de homards est facile à imaginer, ce qui exerce une pression énorme sur la mémoire. Actuellement, il n’existe pas encore de mécanisme efficace pour gérer ce contexte généré par un « groupe de homards », en particulier dans des scénarios complexes tels que la programmation avancée ou la découverte scientifique : que ce soit le modèle ou l’architecture globale de l’agent, la pression est considérable.

En ce qui concerne l'utilisation des outils, c'est-à-dire les compétences (Skill). Les problèmes actuels des Skill sont similaires à ceux rencontrés initialement par MCP — MCP souffrait alors de problèmes de qualité non garantie et de risques sécuritaires. Aujourd'hui, les Skill présentent les mêmes défis : bien qu'il existe un grand nombre de Skill, très peu sont de haute qualité, et les Skill de faible qualité nuisent à la précision avec laquelle les agents accomplissent leurs tâches. Il existe également le risque d'injection malveillante. Ainsi, du point de vue de l'utilisation des outils, il faudra probablement que la communauté améliore l'écosystème global des Skill, voire permette aux Skill de s'auto-évoluer et de générer de nouvelles compétences pendant leur exécution.

En résumé, du Planning à la Mémoire en passant par l'utilisation des outils, ce sont là les points douloureux actuels des agents, ainsi que des directions potentielles pour l'avenir.

07. Mots-clés pour les 12 prochains mois : écosystème, token durable, auto-évolution et puissance de calcul

Yang Zhilin : On peut voir que les deux invités ont discuté d'une même problématique sous des angles différents — à mesure que la complexité des tâches augmente, le contexte explose. Du point de vue du modèle, on peut augmenter la longueur contextuelle native ; du point de vue d'Agent Harness, des mécanismes comme le Planning, la Mémoire et les Multi-Agent permettent également de prendre en charge des tâches plus complexes sous certaines capacités modèles. Je pense que ces deux directions produiront davantage de réactions chimiques dans les mois à venir, améliorant encore davantage la capacité à accomplir les tâches.

Enfin, un regard ouvert sur l'avenir. Veuillez décrire, avec un seul mot, la tendance du développement des grands modèles au cours des 12 prochains mois et vos attentes. Commençons par Huang Chao.

Huang Chao : 12 mois dans le domaine de l'IA semblent très lointains ; on ne sait pas comment cela évoluera dans 12 mois.

Yang Zhilin : I originally had five years written here, but I changed it.

Huang Chao : Oui, ha ha. Le mot que j'ai pensé est « écosystème ». Actuellement, OpenClaw suscite beaucoup d'activité, mais à l'avenir, les agents doivent vraiment devenir des « travailleurs », et non seulement des outils pour s'amuser ou satisfaire une curiosité passagère. Il faut qu'ils s'ancrent véritablement, pour devenir des outils de travail et de véritables collègues.

Cela nécessite l'effort de toute l'écosystème, en particulier l'open source : une fois que les recherches technologiques et les modèles sont rendus open source, toute la communauté doit collaborer pour construire l'écosystème — que ce soit pour l'itération des modèles, celle de la plateforme Skill, ou divers outils, qui doivent tous mieux s'adapter aux crevettes pour créer un écosystème.

Une tendance évidente est que les logiciels futurs seront-ils encore conçus pour les humains ? Je crois que de nombreux logiciels futurs ne seront peut-être plus orientés vers les humains — car les humains ont besoin d’une interface graphique (GUI), tandis que l’avenir pourrait être orienté vers des agents natifs. Il est intéressant de noter que les humains n’utiliseront peut-être que les interfaces graphiques qui leur procurent du plaisir. Actuellement, l’écosystème passe de l’interface graphique et du MCP au modèle CLI. Cela exige que l’écosystème transforme les systèmes logiciels, les données et diverses technologies en formes natives pour agents, afin que le développement global devienne plus riche.

Ro Fuli : Réduire la question à une année me semble très significatif. Si l'on considère cinq ans, selon ma définition de l'AGI, je pense qu'elle a déjà été réalisée. Ainsi, pour décrire l'événement le plus crucial de l'année à venir dans le parcours de l'AGI, je dirais « auto-évolution ».

Ce terme semble un peu mystique, et on en a souvent parlé au cours de la dernière année. Mais récemment, j’ai acquis une compréhension plus profonde, ou plutôt une approche plus concrète et réalisable pour la « self-evolution ». La raison en est que, avec des modèles puissants, nous n’avons pas du tout exploité le potentiel maximal des modèles pré-entraînés dans le paradigme Chat, tandis que le cadre Agent active ce potentiel maximal. Lorsque nous demandons au modèle d’accomplir des tâches plus longues, nous constatons qu’il peut apprendre et s’évoluer par lui-même.

Un essai simple consiste à ajouter une contrainte vérifiable au cadre Agent existant, puis à lui imposer une boucle pour que le modèle itère continuellement en optimisant l'objectif ; vous constaterez qu'il parvient à produire en continu de meilleures solutions. Cette auto-évolution est déjà capable de fonctionner pendant un ou deux jours, bien sûr selon la complexité de la tâche.

Par exemple, dans certaines recherches scientifiques, comme l'exploration de meilleures architectures de modèles, puisque les architectures de modèles ont des critères d'évaluation, comme un PPL plus faible. Sur ces tâches déterministes, nous avons constaté qu'il peut déjà s'optimiser et s'exécuter de manière autonome pendant deux à trois jours.

Donc, à mon avis, l'auto-évolution est le seul domaine capable de « créer quelque chose de nouveau ». Elle ne remplace pas la productivité humaine existante, mais explore, comme les meilleurs scientifiques, ce qui n'existe pas encore dans le monde. Il y a un an, je pensais que cette échéance s'étendrait à trois à cinq ans, mais récemment, je pense qu'elle devrait être ramenée à un à deux ans. Très probablement, nous pourrons bientôt superposer un modèle de grande taille à un cadre d'agent auto-évolutif puissant, réalisant au moins une accélération exponentielle de la recherche scientifique.

Récemment, j'ai constaté que les étudiants de notre équipe qui travaillent sur les grands modèles ont un flux de travail hautement incertain et créatif, mais grâce à Claude Code combiné aux meilleurs modèles, notre efficacité de recherche a augmenté d'environ dix fois. J'attends avec impatience que cette approche s'étende à d'autres disciplines et domaines, ce qui me conduit à penser que « l'auto-évolution » est essentielle.

Xia Lixue : Mon mot-clé est « token durable ». Je constate que le développement de l'IA est encore un processus à long terme, et nous souhaitons qu'il ait une longévité durable. Du point de vue des infrastructures, un problème majeur est que les ressources sont finalement limitées.

Comme il était autrefois question du développement durable, en tant que fabrique de jetons, la capacité à fournir de manière continue, stable et à grande échelle des jetons afin que les modèles de pointe puissent véritablement servir un plus grand nombre de services en aval constitue un enjeu majeur pour nous.

Nous devons élargir notre perspective à l’ensemble de l’écosystème — de l’énergie à la puissance de calcul, en passant par les tokens, jusqu’aux applications, afin de créer une itération économique durable. Nous ne nous limitons pas à exploiter les différentes puissances de calcul au niveau national, mais nous exportons également ces capacités à l’étranger, permettant d’interconnecter et d’intégrer les ressources mondiales.

Je pense aussi que « durable » consiste en réalité à développer l'économie tokenisée à la chinoise. Par le passé, nous parlions de « Made in China », transformant la capacité de fabrication à bas prix de la Chine en produits de qualité exportés dans le monde entier.

Ce que nous devons faire maintenant, c’est « l’IA made in China » : transformer de manière durable les avantages de la Chine dans les domaines tels que l’énergie en tokens de haute qualité via une usine à tokens, et les exporter dans le monde entier pour devenir l’usine mondiale de tokens. C’est la valeur que je souhaite voir apportée par la Chine au monde en matière d’intelligence artificielle cette année.

Zhang Peng : Je vais être plus court. Tout le monde regarde les étoiles, moi je reste sur terre. Mon mot-clé est « puissance de calcul ».

Comme mentionné précédemment, tous les frameworks techniques et d'agents ont multiplié la créativité et l'efficacité par dix, à condition que les utilisateurs puissent vraiment les mettre en œuvre. Vous ne pouvez pas poser une question et attendre qu'il réfléchisse longtemps sans fournir de réponse — ce n'est évidemment pas acceptable. C'est précisément pour cette raison que de nombreux progrès de recherche et de nombreux projets envisagés sont bloqués.

Il y a deux ans, je me souviens qu’un académicien avait dit lors du forum de Zhongguancun : « Pas de carte, pas de sentiment ; parler de cartes blesse les sentiments. » Je pense que nous en sommes de nouveau à ce point aujourd’hui, mais la situation est différente. Nous sommes maintenant entrés dans la phase d’inférence, et la demande explose réellement — multipliée par dix, par cent. Tout à l’heure, vous avez mentionné une augmentation de la consommation de dix fois ; mais la demande pourrait bien être cent fois plus élevée ? Et il reste encore d’énormes besoins non satisfaits : que faire ? Réfléchissons-y tous ensemble.