Pourquoi l'interface CLI refait surface comme interface privilégiée pour les agents IA

iconMetaEra
Partager
AI summary iconRésumé
La ligne de commande est probablement l'interface d'interaction la plus conviviale pour un agent IA

Auteur et source de l'article : Minority Report

Entre 2025 et 2026, les principales entreprises d'IA ont successivement lancé une catégorie de produits : des outils Agent sous forme CLI.

Anthropic a lancé Claude Code, un assistant de programmation AI fonctionnant dans le terminal. OpenAI a lancé Codex CLI, et Google a lancé Gemini CLI. Dans cette vague, presque chaque entreprise d'IA digne d'intérêt s'est engagée dans le terminal.

C'est contre-intuitif. La ligne de commande est un produit des années 1970 ; l'apparition des interfaces graphiques a permis à l'informatique d'atteindre le grand public, et maintenant, l'Internet mobile a rendu l'interaction tactile la norme. Selon la logique habituelle, la tendance technologique devrait aller de plus en plus vers la « visualisation » et la « facilité d'utilisation ». Pourquoi, à l'ère de l'IA, la forme d'interaction la plus ancienne fait-elle son retour ?

The answer is not sentiment, it's engineering logic.

L'interface graphique n'est pas amicale pour l'IA

L'interface graphique est conçue pour la navigation visuelle humaine. Boutons, fenêtres contextuelles, glisser-déposer, effets de survol — ces paradigmes d'interaction s'appuient sur l'intuition visuelle humaine. L'humain jette un coup d'œil à l'interface, scanne l'emplacement des boutons et détermine intuitivement la prochaine action à effectuer. Ce mécanisme est extrêmement naturel pour les humains et nécessite presque aucun coût d'apprentissage.

Mais les LLM ne fonctionnent pas ainsi. Les entrées des LLM sont des jetons, et leurs sorties sont également des jetons. Leur « raisonnement » se produit dans l'espace linguistique, et non dans l'espace des pixels.

Faire en sorte que l'IA contrôle l'interface graphique signifie franchir un énorme fossé :

Le coût de compréhension est extrêmement élevé. L'IA doit s'appuyer sur la vision par ordinateur ou sur l'arbre d'accessibilité pour « comprendre » l'interface — quel bouton est cliquable, où se trouve chaque champ de saisie, et ce que signifie la fenêtre contextuelle actuelle. Ce n'est pas un point fort de l'IA, mais plutôt une charge supplémentaire.

L'état est implicite et imprévisible. Le même bouton peut être cliquable aujourd'hui, mais devenir gris demain en raison d'une condition quelconque. Ce type d'état implicite constitue un « contexte » pour les humains, mais une incertitude pour l'IA — elle ne peut pas raisonner de manière fiable sur « dans quelles conditions cette opération est disponible ».

Les opérations ne sont pas composable. Il n'existe aucun moyen de chaîner deux opérations GUI. « Résultats de recherche → Filtrer → Exporter » nécessite trois clics dans l'interface graphique et ne peut pas être transmis, réutilisé ou automatisé en tant qu'ensemble.

Difficile à tester et à valider. L'IA a effectué une action GUI ; comment confirmer qu'elle a réussi ? Il faut prendre des captures d'écran, analyser l'état de l'interface ; tout le cycle de rétroaction est lent et fragile.

En comparaison, chaque fonctionnalité de l'CLI semble avoir été conçue spécifiquement pour l'IA.

Les trois avantages du CLI pour les agents IA : componibilité

Le cœur de la philosophie Unix est : « Chaque programme ne fait qu'une chose, et la fait bien ; permettez aux programmes de travailler ensemble. »

Ce principe de conception il y a plusieurs décennies prend un nouveau sens à l'ère de l'IA.

Les outils CLI sont chaînés via l'entrée et la sortie standard. linkly search "Optimisation des performances React" | head -5 envoie les résultats de recherche à la commande suivante. linkly search "Conception d'architecture" --json | jq '.results[].doc_id' extrait tous les ID de documents pour un traitement ultérieur.

Pour un agent IA, la composable signifie qu'il est possible de chaîner plusieurs commandes pour former des flux de travail complexes en plusieurs étapes, où la sortie de chaque étape est un texte structuré consommable par l'étape suivante. Plus de boucle « clic → attente → capture d'écran → analyse » sans interface graphique, seulement des entrées et sorties propres.

Prévisibilité

Le comportement de chaque commande est entièrement déterminé par ses paramètres. Effectuer la recherche linkly "base de données" --limit 10 aujourd'hui donne ce résultat ; le faire demain (en supposant que la base de données n'a pas changé) donnera le même résultat. Pas d'état implicite, pas de confusion du type « Pourquoi cette fonction fonctionnait-elle la dernière fois et ne fonctionne-t-elle plus maintenant ? »

Cela est extrêmement important pour l'IA. Lorsqu'elle raisonne sur un outil, l'IA doit établir un modèle mental : quels sont les entrées de cet outil, quelles sont ses sorties, et quelles sont ses effets secondaires. L'état implicite de l'interface graphique rend ce modèle mental incertain. Les paramètres explicites de l'interface en ligne de commande rendent ce modèle mental fiable et précis.

linkly read 42 --offset 80 --limit 100——le sens de cette commande est entièrement déterminé par les paramètres. L'IA peut raisonner précisément son comportement sans avoir à deviner aucun contexte implicite.

Auditabilité

Toutes les opérations CLI sont des séquences textuelles enregistrables. Les commandes exécutées par l'IA et les résultats obtenus sont des textes lisibles par l'homme.

Cette transparence présente deux avantages.

Pour l'IA elle-même : elle peut effectuer une auto-évaluation. « La recherche précédente avec linkly pour "modèle de contrat" a retourné 0 résultats, ce qui indique que les mots-clés sont incorrects ; essayez avec "exemple de contrat". » Ce type de correction automatique basée sur le texte constitue la base du fonctionnement fiable des agents IA.

Pour les humains : il est possible d'effectuer une révision postérieure. Vous pouvez consulter quelles commandes l'IA a exécutées, ainsi que les entrées et sorties de chaque étape ; toute la chaîne de raisonnement est clairement visible. Les actions effectuées via une interface graphique (GUI), telles que « ce qui a été cliqué », sont difficiles à retracer, tandis que les journaux des commandes en ligne de commande (CLI) sont naturellement des enregistrements d'audit.

Pratiques de conception de Linkly AI CLI

LinklyAI est un moteur de recherche local et un logiciel de création de base de connaissances développé par nos soins. Lors de la conception de l'outil CLI de Linkly AI, nous avons considéré l'agent IA comme l'un des utilisateurs principaux dès le départ.

4 commandes centrales soigneusement conçues

Les commandes principales de Linkly AI CLI ne sont que quatre :

Ces quatre commandes respectent entièrement la philosophie Unix : chacune effectue une seule tâche, avec un contrat d'entrée/sortie clair. Un agent IA peut les combiner librement pour créer des processus de recherche complexes.

Un flux de travail typique d'Agent est le suivant :

La sortie de chaque étape est un texte structuré, directement consommable et interprétable par une IA. Aucune opération GUI, aucune charge de traitement visuel.

Combiner avec des tuyaux, etc.

Un autre avantage de l'CLI est qu'il peut être combiné librement avec d'autres commandes du système, offrant de nouvelles capacités au-delà des limites d'un seul outil.

Filtrage et extraction : la sortie --json peut être directement utilisée avec jq pour extraire les champs, puis le résultat est transmis à l'outil suivant :

  • Rechercher le document, ne prendre que la liste des doc_id, puis récupérer en lot les plans
  • linkly recherche "design de base de données" --json | jq -r '.results[].doc_id' | xargs -I{} linkly outline {}

Combiner avec grep pour un filtrage secondaire : d'abord réduire la plage avec une recherche sémantique, puis filtrer avec des mots-clés précis :

  • linkly search "架构设计" | grep -i "微服务|分布式"

Statistiques et analyse : associez wc, sort, uniq, etc. pour effectuer des statistiques sur les documents :

  • Combiner de documents PDF y a-t-il dans la base de connaissances ?
  • linkly search "" --json | jq '.results[].type' | sort | uniq -c

Intégré aux scripts : traiter par lots et automatiser les tâches répétitives dans les scripts shell :

Les outils GUI ne peuvent pas participer à ces combinaisons. La sortie des outils CLI est un flux de texte, naturellement consommable par n'importe quel autre outil, ce qui rend les capacités du système bien supérieures à la simple somme des outils individuels.

L'CLI est également la méthode la plus simple pour établir un pont MCP

CLI et MCP ne sont pas opposés. Une seule commande linkly mcp peut transformer CLI en serveur MCP stdio, utilisable par tout client AI prenant en charge MCP :

Json :

C’est beaucoup plus simple que de configurer directement un serveur HTTP MCP — les utilisateurs n'ont pas besoin de connaître le numéro de port ni d'écrire manuellement l'URL dans le JSON ; ils doivent simplement dire au client AI : « exécutez cette commande ».

L'CLI est la clé d'entrée pour l'écosystème MCP, avec un quasi-zero friction de configuration pour les utilisateurs.

Tendance plus macro

Claude Code a choisi de publier d'abord la version CLI plutôt qu'un plugin IDE, une décision fondée sur une logique d'ingénierie claire : les plugins IDE sont limités par leur environnement hôte, tandis que les outils CLI peuvent s'exécuter n'importe où où il existe un terminal, être appelés par n'importe quel agent et être combinés avec n'importe quel autre outil.

Cela révèle une loi plus fondamentale : l'essence de l'appel d'outils par un Agent IA est d'exécuter des commandes. L'appel d'outil (function call / tool use) est, sur le plan sémantique, un CLI — fournir un nom et des paramètres, obtenir un résultat. Les outils CLI sont naturellement des fonctions que l'Agent peut appeler, sans aucune couche de conversion nécessaire.

L’expression « Terminal as the new IDE » a été avancée bien avant l’émergence de l’IA, mais elle a acquis une tout nouvelle signification à l’ère de l’IA. Il ne s’agit plus simplement de « coder dans le terminal », mais de « l’agent qui interagit avec le monde via le terminal ».

Autrefois, l'CLI était un outil réservé aux techniciens. À l'avenir, l'CLI pourrait devenir le langage universel des agents — les humains dialoguent avec les agents par le langage naturel, tandis que les agents interagissent avec le système via l'CLI.

Résumé

L'interface graphique ne sera pas grandement affectée ; elle reste toujours la meilleure interface pour que les humains manipulent directement un ordinateur. Toutefois, lorsque votre outil IA doit appeler un autre outil, l'interface en ligne de commande est le pont le plus naturel, et de plus en plus de logiciels développeront des outils CLI pour s'adapter aux habitudes des agents.

Vous souhaitez essayer de rechercher vos documents directement depuis le terminal ? Découvrez ces deux articles : Recherchez vos documents sans quitter le terminal avec l’IA et une seule commande pour permettre à plus de 30 outils d’IA de lire des fichiers locaux.

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.