La línea de comandos puede ser la interfaz de interacción más amigable para un AI Agent

Autor del artículo, fuente: Minoría

Entre 2025 y 2026, las principales empresas de IA lanzaron sucesivamente una clase de herramientas Agent en forma de CLI.

Anthropic lanzó Claude Code, un asistente de programación AI que se ejecuta en la terminal. OpenAI lanzó Codex CLI, y Google lanzó Gemini CLI. En esta ola, casi cada empresa de IA relevante ha apostado por la línea de comandos.

Esto es contraintuitivo. La línea de comandos es un producto de los años 70; la aparición de la interfaz gráfica de usuario llevó las computadoras al público general, y ahora la internet móvil ha hecho que la operación por pantalla táctil sea la predeterminada. Según la lógica habitual, la dirección de la tecnología debería ser cada vez más «visual» y más «fácil de usar». ¿Por qué, en la era de la IA, la forma de interacción más antigua está resurgiendo?

The answer is not sentiment, it's engineering logic.

La GUI no es amigable para la IA

La GUI está diseñada para la navegación visual humana. Botones, ventanas emergentes, arrastrar y soltar, efectos de hover: estos patrones de interacción se basan en la intuición visual humana. El ser humano mira una vez la interfaz, escanea la ubicación de los botones y juzga intuitivamente la siguiente acción. Este mecanismo es extremadamente natural para los humanos y casi no requiere costo de aprendizaje.

Pero los LLM no funcionan de esta manera. La entrada de un LLM son tokens y la salida también son tokens. Su «pensamiento» ocurre en el espacio del lenguaje, no en el espacio de píxeles.

Hacer que la IA controle la GUI significa atravesar un gran abismo:

El costo de comprensión es muy alto. La IA necesita recurrir a la visión por computadora o al árbol de accesibilidad para "entender" la interfaz: qué botón es clickeable, dónde está cada campo de entrada y qué significa la ventana emergente actual. Esto no es un punto fuerte de la IA, sino una carga adicional.

El estado es implícito e impredecible. El mismo botón, hoy puede hacerse clic, mañana podría volverse gris debido a alguna condición. Este estado implícito es un "contexto" para los humanos, pero para la IA representa incertidumbre: no puede razonar de manera confiable "bajo qué condiciones está disponible esta operación".

Las operaciones no son encadenables. No hay forma de conectar dos operaciones de interfaz gráfica mediante tuberías. "Resultados de búsqueda → Filtrar → Exportar" requiere tres clics en la interfaz gráfica y no se puede pasar, reutilizar ni automatizar como un solo conjunto.

Difícil de probar y validar. La IA realizó una operación de GUI, ¿cómo confirmar que tuvo éxito? Se necesitan capturas de pantalla y análisis del estado de la interfaz; todo el ciclo de retroalimentación es lento y frágil.

En comparación, cada característica de la CLI parece haber sido diseñada específicamente para la IA.

Tres ventajas de la CLI para el agente de IA: componibilidad

El núcleo de la filosofía Unix es: «Cada programa debe hacer una sola cosa y hacerla bien; permita que los programas trabajen juntos».

Este principio de diseño de hace décadas adquiere un nuevo significado en la era de la IA.

La herramienta CLI enlaza entradas y salidas estándar. linkly search "Optimización de rendimiento de React" | head -5 puede enviar los resultados de búsqueda al siguiente comando. linkly search "Diseño de arquitectura" --json | jq '.results[].doc_id' puede extraer todos los IDs de documentos para su procesamiento posterior.

Para un agente de IA, la componibilidad significa que se pueden encadenar múltiples comandos para formar flujos de trabajo complejos de varios pasos, donde la salida de cada paso es texto estructurado y puede ser consumida por el siguiente paso. No hay ciclos de «hacer clic → esperar → tomar captura de pantalla → analizar» sin interfaz gráfica, solo entradas y salidas limpias.

Predictibilidad

El comportamiento de cada comando está determinado completamente por los parámetros. Buscar en linkly "base de datos" --limit 10 hoy arroja este resultado, y mañana (suponiendo que la base de datos no ha cambiado) seguirá arrojando el mismo resultado. No hay estado implícito, ni confusión sobre "por qué esta función funcionaba antes y ahora no".

Esto es extremadamente importante para la IA. Cuando la IA razona sobre una herramienta, necesita construir un modelo mental: ¿cuáles son las entradas de esta herramienta, cuáles son sus salidas y qué efectos secundarios tiene? El estado implícito de la GUI hace que este modelo mental sea incierto. Los parámetros explícitos de la CLI hacen que este modelo mental sea confiable y preciso.

linkly read 42 --offset 80 --limit 100——el significado de este comando está determinado completamente por los parámetros. La IA puede razonar con precisión su comportamiento sin necesidad de adivinar ningún contexto implícito.

Auditable

Todas las operaciones de CLI son secuencias de texto registrables. Los comandos que ejecutó la IA y las salidas que recibió son texto legible para humanos.

Esta transparencia tiene dos beneficios.

Sobre sí mismo: puede realizar autoverificaciones. «El paso anterior, linkly search “plantilla de contrato”, devolvió 0 resultados, lo que indica que la palabra clave es incorrecta; pruebe con “modelo de contrato”». Este tipo de autocorrección basada en texto es la base para que los agentes de IA funcionen de manera confiable.

Para humanos: se puede realizar una revisión posterior. Puedes ver qué comandos ejecutó la IA, cuáles fueron las entradas y salidas en cada paso, y toda la cadena de razonamiento es clara. Las acciones en la interfaz gráfica de usuario, como "qué se hizo clic", son difíciles de rastrear, mientras que los registros de las operaciones en la línea de comandos son naturalmente registros de auditoría.

Prácticas de diseño de Linkly AI CLI

LinklyAI es un software de búsqueda local y creación de base de conocimientos desarrollado por nosotros mismos. Al diseñar la herramienta CLI de Linkly AI, consideramos desde el principio al AI Agent como uno de los usuarios principales.

4 comandos principales cuidadosamente diseñados

Los comandos principales de Linkly AI CLI son solo cuatro:

Estos cuatro comandos cumplen plenamente con la filosofía Unix: cada uno realiza una sola tarea, con un contrato de entrada y salida claro. El agente de IA puede combinarlos libremente para crear flujos de búsqueda complejos.

Un flujo de trabajo típico de un Agent es el siguiente:

Cada paso de salida es texto estructurado, directamente consumible y razonable por una IA. Sin operaciones de GUI, sin carga de análisis visual.

Combinar con tuberías, etc.

Otra ventaja de la CLI es que se puede combinar libremente con otros comandos del sistema, generando nuevas capacidades más allá de los límites de una sola herramienta.

Filtrar y extraer: la salida --json se puede conectar directamente a jq para extraer campos, y el resultado se pasa a la siguiente herramienta:

Busque el documento, obtenga solo la lista de doc_id, luego obtenga en lote los esquemas
linkly buscar "diseño de base de datos" --json | jq -r '.results[].doc_id' | xargs -I{} linkly esquema {}

Combinar con grep para una segunda filtración: primero usar búsqueda semántica para reducir el rango, luego filtrar con palabras clave exactas:

linkly search "架构设计" | grep -i "微服务|分布式"

Estadísticas y análisis: combínalo con wc, sort, uniq, etc. para estadísticas de documentos:

¿Cuántos artículos PDF hay en la base de conocimientos?
linkly search "" --json | jq '.results[].type' | sort | uniq -c

Combinado con scripts: Procesamiento por lotes en scripts de shell, automatización de tareas repetitivas:

Las herramientas de GUI no pueden participar en estas combinaciones. La salida de las herramientas de CLI es un flujo de texto, que naturalmente puede ser consumido por cualquier otra herramienta, lo que hace que la capacidad del sistema completo sea mucho mayor que la suma simple de las herramientas individuales.

CLI también es la forma más sencilla de conectar MCP

CLI y MCP no son opuestos. linkly mcp puede convertir un CLI en un servidor MCP de stdio con un solo comando, disponible para cualquier cliente de IA que admita MCP:

Json:

Es mucho más sencillo que configurar directamente el servidor HTTP MCP: los usuarios no necesitan conocer el número de puerto ni escribir manualmente la URL en el JSON, solo deben decirle al cliente de IA: "ejecuta este comando".

CLI se convirtió en la entrada al ecosistema MCP, con casi cero fricción de configuración para los usuarios.

Tendencia más macro

Claude Code optó por lanzar primero la forma CLI en lugar de un complemento de IDE, y esta decisión se basa en una lógica de ingeniería clara: los complementos de IDE están limitados por el entorno anfitrión, mientras que las herramientas CLI pueden ejecutarse en cualquier lugar con una terminal, pueden ser invocadas por cualquier agente y pueden combinarse con cualquier otra herramienta.

Esto revela una ley más fundamental: la esencia de que un agente de IA llame a herramientas es ejecutar comandos. Las llamadas a herramientas (function call / tool use) son semánticamente CLI: dado un nombre y parámetros, se devuelve un resultado. Las herramientas CLI son naturalmente funciones que un agente puede llamar, sin necesidad de ninguna capa de conversión.

La frase «Terminal as the new IDE» ya se había mencionado antes del auge de la IA, pero en la era de la IA adquirió un nuevo significado. No se trata solo de «escribir código en la terminal», sino de «los agentes interactúan con el mundo a través de la terminal».

Antes, la CLI era una herramienta exclusiva para técnicos. En el futuro, la CLI podría convertirse en el lenguaje universal de los Agentes: los humanos dialogan con los Agentes mediante lenguaje natural, y los Agentes interactúan con el sistema mediante la CLI.

Resumen

La posición de la GUI no se verá demasiado afectada; sigue siendo la mejor interfaz para que los humanos operen directamente las computadoras. Sin embargo, cuando tus herramientas de IA necesiten invocar otra herramienta, la CLI es el puente más natural, y habrá más software que lanzará más herramientas de CLI para adaptarse a los hábitos de los Agentes.

¿Quieres probar buscar tus documentos desde la terminal? Echa un vistazo a estos dos artículos: Busca tus documentos sin salir de la terminal y un solo comando para que más de 30 herramientas de IA lean archivos locales.