Codex utiliza computadores por meio de três interfaces: Uso de Computador, Extensão do Chrome e Navegador Interno

icon MarsBit
Compartilhar
AI summary iconResumo

Nota do editor: Este artigo mapeia três pontos de entrada para o Codex interagir com o ambiente externo: Computer Use, extensão do Chrome e navegador interno. Apesar de todos parecerem resolver a questão de “fazer o Codex usar um computador”, cada um corresponde a cenários de tarefa distintos, limites de permissão e níveis de confiança diferentes.

Entre eles, o Computer Use tem a cobertura mais ampla, permitindo operar diretamente aplicativos nativos autorizados, configurações do sistema e emuladores iOS no macOS / Windows, e até mesmo executar fluxos de trabalho entre vários aplicativos. É ideal para fluxos de GUI que não têm suporte de API, plug-ins ou ferramentas estruturadas, mas com a desvantagem de ser mais lento e ter o limite de permissão mais amplo. As extensões do Chrome são adequadas para tarefas que dependem de sessão de login, cookies, múltiplas abas e identidade do navegador, como Gmail, LinkedIn, Salesforce, back-ends internos ou pesquisas logadas em vários sites. O navegador interno é mais voltado para cenários de desenvolvimento e depuração, especialmente adequado para serviços locais, bugs visuais, layouts responsivos e anotações de design; ele não herda o estado de login do navegador normal do usuário, possui capacidades mais limitadas, mas oferece maior isolamento.

A avaliação central do artigo é que o Codex não possui apenas uma única maneira de “usar um computador”; o verdadeiramente importante é escolher, para cada tarefa, a interface de operação mais estreita, segura e estruturada. Sempre que possível, use plugins ou MCP em vez de controle visual; para tarefas relacionadas apenas ao desenvolvimento web, priorize o navegador interno; somente quando for necessário o identificador e o estado de login do navegador do usuário, mude para o Chrome; o Computer Use deve ser usado apenas como última opção, quando as ferramentas estruturadas não forem suficientes e a tarefa depender necessariamente da interface gráfica de desktop.

Appshots não é um quarto método de controlar o computador, mas sim uma ferramenta para "mostrar ao Codex" o contexto da tela atual. Ele resolve o problema de entrada de contexto, enquanto Browser, Chrome e Computer Use resolvem problemas de ação. Vistos em conjunto, esse nível hierárquico revela o ponto-chave para a productização de AI Agents: não é conceder ao modelo permissões ilimitadas, mas sim, em tarefas específicas, reduzir continuamente as permissões, definir limites claros e manter o usuário com o direito de revisar ações críticas.

A seguir está o texto original:

Codex oferece três maneiras de usar o computador: Computer Use, extensão do Chrome e navegador interno.

Há uma certa sobreposição entre eles, justamente o suficiente para causar confusão.

Ao ler este artigo, você saberá como instalar e acionar esses três métodos, em quais cenários cada um deve ser usado, como conectar Appshots e Developer mode, e o que escrever no AGENTS.md para permitir que o Codex escolha automaticamente a interface adequada.

Versão simplificada é:

Uso do Computador

Embora isso seja verdade, sempre que possível, prefira usar plugins ou MCP. Por exemplo, o plugin do Slack permite buscar um tópico com mais precisão do que clicar por toda parte no Slack; as ações geradas pelo plugin do GitHub também são mais fáceis de verificar do que deixar o Codex controlar a página web. O controle visual é mais adequado quando as capacidades das ferramentas estruturadas atingem seus limites.

Tudo pode ser @Computer

Computer Use é a interface de operação com o alcance mais amplo entre essas três. Ela permite que o Codex visualize e opere a interface gráfica no macOS e no Windows, incluindo janelas, menus, entrada de teclado e a área de transferência dos aplicativos autorizados.

Também é geralmente o mais lento. Plugins estruturados podem chamar diretamente a API; o Computer Use precisa observar a interface, decidir onde clicar, aguardar a resposta do aplicativo e verificar o próximo estado. Esse ciclo visual consome tempo, mas significa que o Codex pode operar aplicativos que não possuem nenhuma API disponível.

No macOS, lentidão não significa necessariamente que irá interromper você. O Computer Use pode operar em segundo plano as aplicações que você autorizou, enquanto você continua a usar outras partes do computador. Muitas vezes, ao abrir uma aplicação enquanto uso o Codex, descubro que o Codex já concluiu silenciosamente um fluxo de trabalho em segundo plano.

Com base nos aplicativos instalados e autorizados no seu computador, esses objetos de ação podem incluir Spotify, Xcode, System Settings, iOS Simulator e até mesmo controlar seu iPhone usando o iPhone Mirroring. Ele também pode alternar entre vários aplicativos e gerenciar fluxos de trabalho que abrangem diferentes aplicativos.

Quando a tarefa depender do seguinte, você pode usá-lo:

Aplicativos desktop nativos, como Spotify ou aplicativos financeiros;

Emulador iOS, Espelhamento de iPhone ou outros processos que só podem ser operados por meio de interface gráfica;

Configurações do sistema ou aplicativo;

Fontes de dados sem plug-ins ou API;

Fluxo de trabalho que requer alternância entre vários aplicativos;

O último passo ausente em uma integração estruturada.

Método de instalação: abra Configurações do Codex > Uso do Computador e clique em Instalar.

Método de disparo: mencionar @Computer ou solicitar explicitamente que o Codex use o Computer. À medida que as capacidades do modelo melhorarem, no futuro ele também poderá invocar automaticamente quando necessário.

Você pode primeiro testar alguns exemplos:

Um dos meus exemplos favoritos começou com um pacote roubado. A Amazon me disse que eu teria que esperar cerca de 25 minutos para falar com um atendente. Eu entreguei um thread do Codex ao Computer Use, pedindo para ele verificar a janela de bate-papo a cada cinco minutos, e, assim que o atendente aparecesse, mudar para verificar a cada minuto, tentando conseguir meu reembolso. Quando voltei do banho, o reembolso já estava concluído.

Também uso o Computer Use como o "último quilômetro" em fluxos de trabalho estruturados. Em um vídeo de lançamento, o Codex podia ler feedbacks do Slack, modificar o código e renderizar um novo vídeo, mas a integração do Slack naquele thread não conseguia fazer upload de arquivos. Então, o Computer Use clicou em Add file para completar esse passo ausente.

É também a que possui o maior limite de confiança entre os três. Dê a ela apenas uma aplicação ou processo claro por vez. Mantenha-a desligada quando certas aplicações sensíveis não fizerem parte da tarefa; verifique cuidadosamente as janelas de permissão; quando envolver finanças, contas, pagamentos, credenciais, privacidade e alterações de segurança do sistema, é melhor ter alguém presente para supervisionar.

Use o @Chrome para gerenciar várias abas e estados de login

A extensão Codex Chrome permite que o Codex acesse seu estado já logado no Chrome. Use-a quando as tarefas dependerem de conta, cookies, perfil do navegador ou guias já abertas e autenticadas.

Esta interface de operação é adequada para o trabalho com as seguintes ferramentas:

Gmail ou LinkedIn;

Salesforce ou painel de atendimento ao cliente;

Painel interno;

Pesquisa logada em múltiplos sites;

Formulários dependentes da sua conta ou extensão do navegador.

Forma de instalação: abra os Plugins do Codex, adicione o Chrome e siga o processo de configuração. O Codex o guiará na instalação da extensão Codex Chrome e na aprovação das permissões do Chrome. Quando a extensão exibir Connected, inicie um novo tópico.

Forma de disparo: mencionar @Chrome ou solicitar explicitamente que o Codex use seu navegador Chrome logado:

As tarefas do Chrome são executadas dentro de grupos de abas, o que ajuda a manter juntas as abas relacionadas a um determinado fio do Codex. Diferentemente do navegador interno, esta interface carrega sua identidade de navegador. Isso a torna mais poderosa, mas também mais sensível.

Outra vantagem principal é o controle de múltiplas abas. O Chrome permite que várias abas sejam associadas à mesma tarefa, permitindo que você leia o contexto em uma aba, consulte informações em outra e continue o fluxo de trabalho em uma terceira. O Computer Use também pode controlar o navegador por meio de visualização, mas o Chrome entende a tarefa como um fluxo de trabalho do navegador, e não como uma sequência de operações de coordenadas de tela.

Recentemente, houve um thread em que entreguei uma aba já aberta do Strudel Composer ao Codex para tornar a música mais interessante. O Chrome forneceu a ele a aba selecionada, bem como as ferramentas WebMCP expostas por esta página. O Codex analisou a estrutura da música, reescreveu a harmonia e a forma geral de quatro minutos, ajustou o tempo, salvou a faixa e continuou a reprodução. Ele não precisou procurar visualmente cada controle na interface, pois o Chrome pôde combinar o contexto da aba com as capacidades estruturadas fornecidas pela página.

Também o uso para executar uma thread longa no Twitter. As instruções gerais são:

O ponto interessante não é o Codex conseguir abrir o Twitter, mas sim que este thread pode retornar permanentemente ao mesmo ambiente logado, conectar os resultados encontrados a arquivos locais e deixar um resultado disponível para minha revisão.

O limite de confiança aqui é importante. O site pode considerar cliques no Codex, envio de formulários e mensagens como ações realizadas por você. O próprio conteúdo da página também é uma entrada não confiável. Distinga claramente as etapas com consequências mais graves: pesquisa, navegação e redação podem ser automatizadas; antes de enviar, publicar, comprar ou submeter, você deve revisar.

Se toda a tarefa for concluída dentro do navegador, prefira o Chrome em vez do Computer Use. O Chrome possui o contexto nativo do navegador necessário para essas tarefas, sem ampliar o acesso para toda a área de trabalho.

Use o @Browser interno do app para tratar o site que você está desenvolvendo

O navegador interno é um navegador existente dentro da thread do Codex. Você compartilha a mesma página renderizada com o Codex, tornando-o ideal para construir e depurar aplicativos web.

Normalmente começo por aqui:

Servidor de desenvolvimento local;

Página de visualização baseada em arquivo;

Páginas públicas que não exigem login;

Reproduzir bug visual;

Verificar o layout responsivo;

Leave design feedback for page elements.

Sua principal restrição é o isolamento. O navegador interno não usa seu perfil de navegador normal, cookies, extensões, sessões de login ou guias existentes. Quando a tarefa exige identidade de conta, isso é uma limitação; mas quando a tarefa não exige conta, torna-se um limite útil.

Configuração: Abra os Plugins do Codex, adicione o plugin Browser e ative-o.

Forma de disparo: mencionar @Browser na instrução ou exigir explicitamente que o Codex use o navegador interno:

Isso forma um ciclo de feedback fechado: o Codex pode editar o código, operar a página, verificar o estado de renderização, tirar screenshots e revalidar o mesmo processo após a correção.

Minha parte favorita são as anotações. Quando reviso um aplicativo local, posso clicar diretamente em um elemento ou selecionar uma área e deixar um comentário. Os controles de estilo também me permitem visualizar e fornecer feedback com mais precisão sobre texto, fontes, espaçamento e cores. Geralmente combino isso com entrada de voz e guia de processo: reviso a página, deixo comentários e continuo adicionando mais opiniões na fila enquanto o Codex processa os feedbacks atuais. A própria página se torna a especificação.

Isso é especialmente útil para trabalho de design. Frequentemente peço ao Codex para organizar uma ideia, um pacote de pesquisa ou o status de um projeto em um único arquivo index.html, e depois abri-lo no navegador interno do aplicativo. Em vez de tentar descrever todo o conjunto de design em outra prompt, posso simplesmente anotar diretamente na página real: “Essa hierarquia está invertida”, “Não deixe isso parecer tão um cartão”, “Esses controles precisam de mais espaço” ou “Use essa escala de fontes em todo o site”. O Codex recebe comentários com screenshots relevantes e contexto dos elementos, modifica o arquivo e reabre a mesma página para a próxima rodada.

Este ciclo parece mais próximo de trabalhar na mesma tela com um designer do que trocar capturas de tela e instruções por texto.

O navegador interno também serve como ponto de partida para fluxos de trabalho híbridos. Em outra thread, abri um post do X no navegador interno para que o Codex investigasse a discussão relacionada. A visualização da página ajudou-o a confirmar qual post eu estava mencionando; em seguida, o Codex mudou para o CLI do Twitter e recuperou 38 respostas, incluindo respostas aninhadas ocultas na visualização do navegador. Isso é a prática do princípio de “usar a interface de operação mais estreita”: usar o navegador para confirmar o contexto na tela e, em seguida, usar ferramentas estruturadas para pesquisas mais profundas.

Aqui também há trade-offs. A isolamento do navegador interno o torna um excelente ambiente de desenvolvimento, mas significa que ele não é adequado para lidar com login do Google, passkeys ou sites que dependem de extensões de navegador. Quando a identidade for importante, alterne para o Chrome.

Appshots

Appshot não é a quarta maneira de o Codex controlar o computador. É um método para direcionar o Codex ao seu contexto imediato.

No Mac, pressione duas vezes a tecla CMD para capturar a janela mais recente. O Codex anexará uma imagem e todo o texto disponível ao thread. Você pode fazer um Appshot de um erro, um e-mail, um design, um painel de configurações ou um formulário desconhecido e, em seguida, dizer diretamente:

Este é o modelo mental que acho mais fácil de lembrar: Appshots são a maneira como você aponta para algo no seu computador; Browser, Chrome e Computer Use são as maneiras pelas quais o Codex toma ações.

Appshots são atualmente criados por meio do aplicativo Codex no macOS. Ele captura a janela frontal, e não toda a área de trabalho. Isso o torna uma maneira útil de fornecer contexto focado sem conceder controle sobre esse aplicativo.

Como acompanhar esses avanços

Essas interfaces de operação mudam rapidamente. Se você deseja detalhes práticos, em vez de aguardar um grande resumo de lançamento:

Siga Ari Weinstein (@AriX) para saber mais sobre Computer Use e Appshots;

Siga James Sun (@JamesZmSun) para mais informações sobre Browser;

Siga Andrew Ambrosino (@ajambrosino) para saber mais sobre o lançamento do aplicativo Codex e a narrativa maior do produto de desktop;

Siga o OpenAI Developers (@OpenAIDevs) para obter mais notícias sobre o Codex e a Plataforma OpenAI.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.