A linha de comando pode ser a interface de interação mais amigável para um AI Agent

Autor do artigo, fonte: Minorities

Entre 2025 e 2026, as principais empresas de IA lançaram sucessivamente uma categoria de ferramentas Agent no formato CLI.

A Anthropic lançou o Claude Code, um assistente de programação AI que roda no terminal. A OpenAI lançou o Codex CLI, e o Google lançou o Gemini CLI. Nesta onda, quase todas as empresas de IA relevantes apostaram no terminal.

Isso é contra-intuitivo. A linha de comando é um produto da década de 1970; a aparição da interface gráfica levou os computadores ao público em geral, e agora a internet móvel tornou a operação por toque o padrão. Segundo a lógica comum, a direção da tecnologia deveria ser cada vez mais "visual" e cada vez mais "fácil de usar". Por que, na era da IA, a forma de interação mais antiga está retornando?

The answer is not sentiment, it's engineering logic.

A GUI não é amigável para a IA

A GUI foi projetada para navegação visual humana. Botões, pop-ups, arrastar e soltar, efeitos de hover — esses paradigmas de interação são baseados na intuição visual humana. O ser humano olha uma vez para a interface, escaneia a posição dos botões e decide intuitivamente a próxima ação. Esse mecanismo é extremamente natural para os humanos, exigindo quase nenhum custo de aprendizado.

Mas os LLMs não funcionam desse jeito. A entrada dos LLMs são tokens e a saída também são tokens. Seu “raciocínio” ocorre no espaço da linguagem, e não no espaço de pixels.

Fazer a IA controlar a GUI significa atravessar um grande abismo:

O custo de compreensão é extremamente alto. A IA precisa recorrer à visão computacional ou à Árvore de Acessibilidade para “entender” a interface — qual botão é clicável, onde está o campo de entrada e o que significa a janela pop-up atual. Isso não é o ponto forte da IA, mas sim uma carga adicional.

O estado é implícito e imprevisível. O mesmo botão pode ser clicável hoje, mas amanhã pode ficar cinza devido a alguma condição. Esse estado implícito é considerado "contexto" para humanos, mas para a IA representa incerteza — ela não consegue raciocinar de forma confiável sobre "em quais condições essa operação está disponível".

As operações não são compostas. Não há como encadear duas operações de interface gráfica. "Resultado da pesquisa → Filtrar → Exportar" na interface gráfica são três cliques, e não pode ser passado, reutilizado ou automatizado como um único conjunto.

Difícil de testar e validar. O AI executou uma operação de GUI; como confirmar que foi bem-sucedida? É necessário tirar screenshots, analisar o estado da interface — todo o ciclo de feedback é lento e frágil.

Em comparação, cada recurso da CLI parece ter sido projetado especificamente para IA.

Três vantagens do CLI para o AI Agent: composibilidade

O princípio central da filosofia Unix é: “Faça um programa fazer apenas uma coisa e faça-a bem; faça os programas trabalharem juntos.”

Este princípio de design de décadas atrás adquire novo significado na era da IA.

A ferramenta CLI encadeia entradas e saídas padrão. linkly search "otimização de desempenho do React" | head -5 pode enviar os resultados da pesquisa para o próximo comando. linkly search "design de arquitetura" --json | jq '.results[].doc_id' pode extrair todos os IDs de documentos para processamento posterior.

Para um agente de IA, a composibilidade significa conectar vários comandos em fluxos de trabalho complexos de múltiplos passos, onde a saída de cada passo é um texto estruturado, pronto para ser consumido pelo próximo. Não há ciclo de “clique → espere → capture a tela → analise” sem interface gráfica, apenas entradas e saídas limpas.

Previsibilidade

O comportamento de cada comando é totalmente determinado pelos parâmetros. Executar linkly search "banco de dados" --limit 10 hoje produzirá este resultado; executar amanhã (supondo que o banco de dados não tenha mudado) produzirá o mesmo resultado. Não há estado implícito, nem confusão sobre "por que essa funcionalidade funcionou antes e agora não funciona mais".

Isso é extremamente importante para a IA. Ao raciocinar sobre uma ferramenta, a IA precisa construir um modelo mental: quais são as entradas dessa ferramenta, quais são as saídas e quais são os efeitos colaterais. O estado implícito da GUI torna esse modelo mental cheio de incertezas. Os parâmetros explícitos da CLI tornam esse modelo mental confiável e preciso.

linkly read 42 --offset 80 --limit 100——o significado deste comando é totalmente determinado pelos parâmetros. A IA pode inferir precisamente seu comportamento, sem precisar adivinhar nenhum contexto implícito.

Auditabilidade

Todas as operações CLI são sequências de texto graváveis. Os comandos executados pela IA e as saídas obtidas são textos legíveis por humanos.

Essa transparência tem duas vantagens.

Sobre o próprio AI: Pode realizar autoverificação. "A etapa anterior, linkly search 'modelo de contrato', retornou 0 resultados, indicando que os termos-chave estão incorretos; tente novamente com 'exemplo de contrato'." Esse tipo de autocorreção baseada em texto é a base para o funcionamento confiável do AI Agent.

Para humanos: é possível realizar uma revisão pós-execução. Você pode verificar quais comandos o AI executou, quais foram as entradas e saídas em cada etapa, e toda a cadeia de raciocínio fica clara. As ações realizadas na interface gráfica ("o que foi clicado") são difíceis de rastrear, enquanto os logs das operações CLI são naturalmente registros de auditoria.

Práticas de design do Linkly AI CLI

LinklyAI é um software de busca local e criação de banco de conhecimento desenvolvido por nós mesmos. Ao projetar a ferramenta CLI do Linkly AI, consideramos o AI Agent como um dos principais usuários desde o início.

4 comandos principais cuidadosamente projetados

Os comandos principais do Linkly AI CLI são apenas quatro:

Esses quatro comandos estão totalmente alinhados com a filosofia Unix: cada um realiza apenas uma tarefa, com um contrato claro de entrada e saída. O agente de IA pode combiná-los livremente para criar fluxos de pesquisa complexos.

Um fluxo de trabalho típico de um Agent é o seguinte:

A saída de cada etapa é texto estruturado, diretamente consumível e passível de raciocínio por IA. Nenhuma operação de interface gráfica, nenhum ônus de análise visual.

Combinar com tubulações, etc.

Outra vantagem da CLI é que ela pode ser combinada livremente com outros comandos do sistema, gerando novas capacidades além dos limites de uma única ferramenta.

Filtragem e extração: a saída --json pode ser diretamente encaminhada ao jq para extrair campos, e o resultado pode ser passado para a próxima ferramenta:

Pesquise o documento, pegue apenas a lista de doc_id, depois obtenha os resumos em lote
linkly search "design do banco de dados" --json | jq -r '.results[].doc_id' | xargs -I{} linkly outline {}

Combinar com grep para filtragem secundária: primeiro use busca semântica para reduzir o intervalo, depois filtre com palavras-chave exatas:

linkly search "arquitetura" | grep -i "microserviços|distribuído"

Estatísticas e análise: combine com wc, sort, uniq, etc. para estatísticas de documentos:

Quantos artigos PDF há no repositório de conhecimento?
linkly search "" --json | jq '.results[].type' | sort | uniq -c

Integrado com scripts: processe em lote e automatize tarefas repetitivas em scripts shell:

As ferramentas GUI não podem participar dessas combinações. A saída das ferramentas CLI é um fluxo de texto, naturalmente consumível por qualquer outra ferramenta, o que torna a capacidade do sistema inteiro muito maior do que a simples soma das capacidades das ferramentas individuais.

CLI também é a maneira mais simples de fazer a ponte MCP

CLI e MCP não são opostos. O linkly mcp permite transformar um CLI em um servidor MCP stdio com um único comando, disponível para qualquer cliente AI que suporte MCP:

Json:

É muito mais simples do que configurar diretamente o servidor HTTP MCP — o usuário não precisa saber a porta, nem escrever manualmente a URL no JSON, apenas precisa dizer ao cliente AI: "execute este comando".

CLI se tornou o ingresso para o ecossistema MCP, com quase zero atrito de configuração para o usuário.

Tendência mais macro

Claude Code optou por lançar primeiro a versão CLI em vez de um plugin IDE, uma decisão baseada em uma lógica de engenharia clara: plugins IDE são limitados pelo ambiente hospedeiro, enquanto ferramentas CLI podem ser executadas em qualquer lugar com um terminal, podem ser chamadas por qualquer agente e podem ser combinadas com qualquer outra ferramenta.

Isso revela uma lei mais fundamental: a essência da chamada de ferramentas por um AI Agent é executar comandos. A chamada de ferramentas (function call / tool use) é semanticamente um CLI — dado um nome e parâmetros, retorna um resultado. Ferramentas CLI são naturalmente funções que um Agent pode chamar, sem necessidade de nenhuma camada de conversão.

A frase “Terminal como o novo IDE” já havia sido mencionada antes do surgimento da IA, mas na era da IA adquiriu um novo significado. Não se trata apenas de “escrever código no terminal”, mas sim de “Agentes interagindo com o mundo por meio do terminal”.

No passado, a CLI era uma ferramenta exclusiva de técnicos. No futuro, a CLI pode se tornar a linguagem universal dos Agentes — os humanos interagem com os Agentes por meio de linguagem natural, enquanto os Agentes se comunicam com o sistema por meio da CLI.

Resumo

A posição da GUI não será muito afetada; ela ainda é a melhor interface para operação direta do computador por humanos. No entanto, quando suas ferramentas de IA precisarem invocar outra ferramenta, a CLI é a ponte mais natural, e haverá mais software desenvolvendo mais ferramentas CLI para atender aos hábitos dos Agentes.

Quer tentar pesquisar seus documentos no terminal? Confira estes dois artigos: Pesquise seus documentos sem sair do terminal e um único comando para fazer mais de 30 ferramentas de IA lerem arquivos locais.