Nos últimos dias, a OpenAI lançou oficialmente o novo modelo grande GPT-5.4-Cyber. Assim como muitos internautas, este modelo também nos transmitiu uma sensação de déjà vu muito intensa.
Este novo modelo quase que totalmente se alinha com o Claude Mythos, lançado recentemente pela Anthropic, em termos de público-alvo, cenários de aplicação e até estratégias de marketing. Essa postura de “confronto direto” chegou a um ponto de total desfaçatez. Até o The New York Times apontou de forma perspicaz no título de sua reportagem mais recente: “Assim como a Anthropic, a OpenAI...”

Essa tendência de homogeneização não se limita apenas ao nível mais básico dos modelos base. Se você observar a série de produtos lançados recentemente por ambas as empresas, perceberá que elas estão se tornando espelhos uma da outra!
Sob a luz cirúrgica dos mercados de capital, essa convergência torna-se ainda mais evidente. Atualmente, as avaliações das duas empresas no mercado secundário estão muito próximas, e a Anthropic até superou recentemente a OpenAI em preço, impulsionada por sua ascensão acelerada no mercado corporativo. O capital possui o olfato mais apurado: em seus olhos, esses dois unicórnios estão desenvolvendo os mesmos chifres.

Parece que a homogeneização do modelo de base levará inevitavelmente à convergência das aplicações superiores.
Hoje, quero discutir com vocês as duas ferramentas de referência que representam o mais alto nível atual de programação assistida por IA: o Codex da OpenAI e o Claude Code da Anthropic. De seus caminhos separados no passado até sua convergência atual, como elas evoluíram para se tornar tão semelhantes?
Da separação ao mesmo destino: a evolução dos dois gigantes
Voltemos no tempo alguns anos atrás, Codex e Claude Code eram produtos de duas filosofias tecnológicas completamente diferentes.
A lógica subjacente ao Codex é "na arte marcial, a velocidade é invencível". É como um desenvolvedor sênior com cinco anos de experiência, sempre pronto atrás de você para completar o código.

Na visão da OpenAI, o Codex é um agente de terminal leve e altamente interativo, destacando-se por iterações rápidas e programação interativa. Seu desempenho é extremamente rápido, alcançando uma taxa de transferência de 1.000 tokens por segundo com o suporte do hardware Cerebras WSE-3. Em fluxos de trabalho concretos, o Codex oferece três modos de aprovação claros: sugestões, edição automática e automação total, mantendo os desenvolvedores sempre dentro do ciclo. Esse design é altamente adequado para desenvolvedores entusiastas que precisam construir protótipos rapidamente e lidar com interações de alta frequência.
Em contraste, o Claude Code traz desde seu nascimento um atributo distante e contido de "arquiteto".

A Anthropic injeção nele o gene para lidar com tarefas extremamente complexas. Ela depende de uma janela de contexto enorme de até 1 milhão de tokens, além de uma técnica única de "compressão" para realizar conversas infinitas. O lema do Claude Code é "controle total, agir após planejamento". Antes de executar qualquer ação, ele primeiro utiliza tecnologia de busca de agentes para compreender completamente a estrutura do código completo e, em seguida, coordena modificações consistentes em múltiplos arquivos. Para tarefas de refatoração empresarial que envolvem migrações de dezenas de milhares de linhas de código, o Claude Code demonstra uma dominância impressionante.
No entanto, com o passar do tempo e a expansão contínua dos cenários de aplicação, essas duas ferramentas, originalmente tão diferentes, começaram a copiar uma as outras.

Fonte da imagem: MorphLLM
Ao lidar com projetos complexos, o maior gargalo enfrentado por modelos de IA monolíticos é a poluição de contexto. Quando você pede à IA para reestruturar o módulo de autenticação, após ler 40 arquivos, frequentemente ela esquece o padrão de projeto do primeiro arquivo. Para resolver esse ponto doloroso, duas empresas deram respostas quase idênticas: atribuir janelas de contexto independentes para cada subtarefa.
A OpenAI em breve lançará um novo aplicativo de desktop para macOS, isolando tarefas em diferentes threads e executando-as independentemente em um sandbox na nuvem. A Anthropic lançou uma arquitetura de equipe de agentes, permitindo que desenvolvedores derivem múltiplos subagentes que compartilham listas de tarefas e dependências, trabalhando em paralelo em janelas independentes. Você perceberá que, seja chamado de “sandbox na nuvem” ou “equipe de agentes”, o princípio central por trás da implementação técnica já está totalmente alinhado.
Nos resultados do benchmark, elas também apresentam um equilíbrio sutil. O GPT-5.3-Codex lidera com 77,3% no Terminal-Bench 2.0, enquanto o Claude Code alcançou 80,8% na lista complexa SWE-bench Verified. Ambas atingiram o auge em suas áreas de força, ao mesmo tempo em que se esforçam para compensar suas fraquezas.
Efeito OpenClaw: A mão invisível que derruba os muros altos
Se as estratégias internas das duas empresas determinaram a homogeneização como fator interno, então a pressão exercida por todo o ecossistema de código aberto é uma força externa inegável. Aqui, devemos mencionar o impacto profundo que o OpenClaw trouxe para toda a categoria de ferramentas de programação de IA.
Como um framework de fluxo de trabalho lançado pela comunidade de código aberto, o surgimento do OpenClaw pode ser considerado como derrubando as altas barreiras ecológicas construídas com esforço pelas grandes empresas. Ele padronizou a interação entre modelos grandes e ferramentas locais. No passado, como fazer com que modelos grandes chamem elegantemente commits locais do Git, como executar seguramente scripts de teste em um sandbox e como realizar validação de raciocínio em múltiplos passos eram as "tecnologias proprietárias" que o Codex e o Claude Code se orgulhavam de possuir.
Mas o OpenClaw abstraiu esses processos em um protocolo universal. Isso significa que os desenvolvedores não precisam mais ficar vinculados a uma plataforma específica para um determinado modelo de colaboração. A celebração da comunidade de código aberto transformou a padronização em uma correnteza irreversível. Diante disso, tanto a OpenAI quanto a Anthropic foram obrigadas a adotar uma postura mais humilde e compatibilizar-se com esse padrão aberto.
Quando as barreiras tecnológicas subjacentes são niveladas por forças de código aberto como o OpenClaw, e todos os recursos avançados se tornam configurações padrão da indústria, a única saída para o Codex e o Claude Code é uma competição infinita nos detalhes da experiência do usuário. É por isso que sentimos que eles estão ficando cada vez mais parecidos — sob um framework padronizado, a melhor solução geralmente é apenas uma — assim como a evolução convergente na biologia.
Codex está alcançando o Claude Code
Embora o Claude Code e o Codex estejam em um caminho de evolução convergente, ainda existem diferenças entre eles, e o Codex já é preferido por desenvolvedores em alguns aspectos.
Dois dias atrás, na comunidade r/ClaudeCode, um engenheiro sênior com 14 anos de experiência, que já trabalhou em grandes empresas de tecnologia, u/Canamerican726, compartilhou uma avaliação extremamente técnica.
Especificamente, em um projeto complexo com 80 mil linhas de código, ele dedicou 100 horas usando o Claude Code e 20 horas usando o Codex.

Na perspectiva dele, usar o Claude Code é como orientar um engenheiro pressionado por prazos: ele avança rapidamente, mas frequentemente ignora as diretrizes escritas no CLAUDE.md e prefere acumular código nos arquivos existentes para concluir tarefas, faltando-lhe pensamento de refatoração.
Em comparação, o Codex transmitia a ele a sensação de ser um profissional experiente, com 5 a 6 anos de experiência. Embora seu tempo de processamento fosse 3 a 4 vezes mais lento, ele parava ativamente no meio para refletir e reestruturar o código, além de respeitar rigorosamente os limites das instruções. Essa alta autonomia permitiu que o engenheiro entregasse tarefas diretamente a ele e se sentisse tranquilo ao fazer outras coisas.
A mesma voz também apareceu em redes sociais como o X. O pesquisador Aran Komatsuzaki, baseando-se em sua própria experiência, mencionou que, no front-end, o Claude Code ainda lidera, mas no planejamento back-end e na manutenção de informações atualizadas, o Codex, que faz chamadas frequentes à busca na web, demonstra claramente maior solidez.

Os comentários estão repletos de lições aprendidas com experiências reais. Desenvolvedores apontaram com grande clareza que modelos baseados no Opus, embora rápidos, frequentemente acumulam uma grande dívida técnica de limpeza de código; o Codex é mais lento, mas consegue avançar enquanto limpa o caminho. Vi até um usuário resumindo uma regra de sobrevivência: sugerir que, ao atingir 70% de uso da janela de contexto, inicie imediatamente uma nova sessão, pois é extremamente fácil receber bugs ocultos fornecidos pelo sistema.

Esses comentários reais provenientes da linha de frente deixam claro que, quando as telas de recursos das duas grandes ferramentas se sobrepõem cada vez mais, o que geralmente determina a lealdade final dos desenvolvedores são essas pequenas diferenças de experiência relacionadas ao "custo de preencher buracos" e à "manutenção mental". Claro, para usuários chineses existem ainda alguns desafios especiais, como:

Pensamento frio: A batalha ecológica por trás da homogeneização
Claro, as vantagens e desvantagens do Codex e do Claude Code dependem dos próprios desenvolvedores e também de suas habilidades, como resumido no relatório de avaliação de u/Canamerican726 acima: se você não entende engenharia de software, ambas as ferramentas produzirão resultados ruins; ferramentas não são equivalentes a habilidades.
Esta frase desfaz uma ilusão de longa data criada por ferramentas de programação baseadas em IA. Anteriormente, acreditávamos que, com um assistente de IA suficientemente poderoso, até mesmo um Vobe Coder sem nenhuma base poderia criar sozinho aplicações empresariais. Mas a realidade é que o Claude Code exige um “motorista” extremamente focado e altamente qualificado; caso contrário, ele facilmente se perde em grandes bases de código. Embora o Codex seja mais independente, ele também precisa que os desenvolvedores forneçam contexto do sistema preciso para atingir seu máximo potencial.
Então, na era atual, em que as capacidades das ferramentas são altamente homogêneas, onde se deslocaram as vantagens competitivas dessas duas empresas?
A resposta está escondida nos relatórios financeiros secos e nas estratégias de precificação. Sob a mesma tarefa, o número de tokens consumidos pelo Claude Code é frequentemente 3 a 4 vezes maior do que o do Codex. O custo de uso é mais elevado. Para equipes empresariais, o uso do Claude Code exige um pagamento mensal de US$ 100 a US$ 200 por desenvolvedor. Já o Codex embala suas funcionalidades em planos de assinatura mais acessíveis e acumulou uma grande base de usuários através da vasta comunidade do GitHub.

Fonte da imagem: MorphLLM
A ambição da Anthropic é integrar profundamente o Claude Code nos fluxos de trabalho das grandes empresas de tecnologia que não faltam dinheiro. Por exemplo, a Stripe permitiu que 1.370 engenheiros usassem o Claude Code para concluir, em 4 dias, uma migração de código entre linguagens que originalmente exigiria semanas de trabalho de 10 pessoas. A empresa Ramp dependeu dele para reduzir em 80% o tempo de resposta a eventos. A OpenAI, por sua vez, aproveitou sua penetração onipresente no ecossistema para tornar o Codex a escolha padrão de muitos desenvolvedores comuns.
Isso já não é mais uma simples competição técnica, mas sim uma guerra de desgaste sobre vinculação ecológica, estratégias de precificação e redefinição dos hábitos dos usuários.
O cruzamento dos desenvolvedores
Ao olhar para a evolução tecnológica deste ano, o lançamento do GPT-5.4-Cyber é apenas uma pequena nota de rodapé nesta longa batalha. Codex e Claude Code estão caminhando em direção a “um único rosto”, marcando a transição das ferramentas de programação por IA da fase inicial, cheia de incertezas e curiosidades, para uma fase madura e tediosa de produção industrial.
Atualmente, o Claude Code gera automaticamente 135 mil commits no GitHub por dia, o que representa 4% de todos os commits públicos na rede. Podemos prever que, em um futuro próximo, a maior parte do código padrão, casos de teste básicos e refatorações de código comuns serão realizadas silenciosamente em segundo plano por esses agentes de IA cada vez mais semelhantes.

Fonte da imagem: MorphLLM & SemiAnalysis / API de Pesquisa no GitHub
Diante de duas ferramentas superiores que se aproximam infinitamente em capacidade e se imitam mutuamente na experiência, o que resta do valor central dos desenvolvedores humanos? Talvez a era dos benefícios das ferramentas esteja prestes a terminar completamente. Quando todos tiverem nas mãos armas igualmente afiadas, o que realmente decidirá o vencedor não será mais quem possui uma velocidade superior de preenchimento automático de código, mas sim quem consegue definir melhor os problemas, quem possui uma visão mais ampla da arquitetura do sistema e quem, nesse mundo de código repleto de IA, encontrar aquela inegável e insubstituível qualidade humana.
Por falar nisso, qual você escolhe?
Link de referência
https://www.morphllm.com/comparisons/codex-vs-claude-code
https://www.reddit.com/r/ClaudeCode/comments/1sk7e2k/claude_code_100_hours_vs_codex_20_hours/
https://x.com/arankomatsuzaki/status/2044270102003196007
https://www.nytimes.com/2026/04/14/technology/openai-cybersecurity-gpt54-cyber.html
Este artigo é do公众号 da WeChat "Machine Heart" (ID: almosthuman2014), autor: Machine Heart
