A Anthropic treinou o Claude Code por meio do projeto Marlin, recrutando cerca de 1.000 engenheiros de software externos por meio da empresa de dados Snorkel AI para realizar testes A/B no código gerado pelo modelo, com pagamento de US$ 280 por tarefa.

Autor e fonte do artigo: Nova Inteligência

Recentemente, uma reportagem expôs os “segredos do progresso” do Claude Code.

A Business Insider afirmou que a Anthropic tem um projeto dedicado a aprimorar o Claude Code, refinando-o com base no feedback de cerca de 1.000 engenheiros de software.

Este projeto, dentro da empresa de dados Snorkel AI, tem o codinome "Marlin".

Já em janeiro deste ano, Boris Cherny, responsável pelo Claude Code, revelou que não havia escrito uma única linha de código à mão há mais de dois meses, tendo o Claude submetido 22 pull requests em um único dia e 27 no dia anterior — todos escritos pelo modelo.

Também houve relatos de que o código interno da Anthropic foi em grande parte gerado por IA.

O interessante está aqui.

Por um lado, os engenheiros principais da Anthropic já delegaram grande parte do trabalho de codificação ao modelo; por outro, estão gastando dinheiro para contratar cerca de 1.000 engenheiros externos, ensinando manualmente ao Claude Code o que constitui um «bom código».

O que foi comprado por 280 dólares por hora?

De acordo com o Business Insider, os engenheiros externos contratados pelo projeto Marlin têm formação em engenharia de software. Seu trabalho parece muito com uma revisão de código real.

O processo é mais ou menos assim. Primeiro, escolha um repositório no GitHub de uma lista contendo milhares de repositórios. Em seguida, crie um PR, que é o passo em que os desenvolvedores submetem alterações de código. Depois, escreva um prompt explicando claramente a tarefa.

O modelo gerará dois conjuntos de código, e o que os engenheiros externos farão a seguir é realizar um teste A/B: comparar os dois conjuntos de saída e escolher o melhor.

Cada tarefa paga 280 dólares, levando aproximadamente uma hora. Algumas exigem várias rodadas de revisão com a camada de auditoria do Snorkel.

Os critérios de avaliação são a corretude, segurança, confiabilidade e manutenibilidade do código em produção.

Give two real examples.

Em uma tarefa, um engenheiro externo solicitou ao modelo reestruturar a forma como o sistema processa os metadados de execução, com o objetivo de tornar o código mais claro e mais fácil de manter, sem alterar a funcionalidade.

Em outra tarefa, um engenheiro externo realizou uma correção de segurança na plataforma de machine learning de código aberto MLflow, visando a vulnerabilidade de injeção de comandos que pode ocorrer ao baixar pacotes Python durante o carregamento de modelos. Os requisitos eram muito claros: bloquear a injeção de comandos sem afetar opções legítimas do pip (gerenciador de pacotes Python).

Os requisitos dessas tarefas ultrapassam o escopo da rotulagem de dados, parecendo mais uma exigência para que um engenheiro sênior transfira exatamente para o modelo seu julgamento interno de “como escrever melhor”.

Claramente, a Anthropic não comprou código, mas o julgamento de programadores experientes sobre como escrever código mais seguro e mais limpo.

Por que precisa ser engenheiro?

Por que a Anthropic está fazendo todo esse esforço? Porque o Claude Code já não é mais apenas uma caixa de bate-papo para escrever código.

A Anthropic o define oficialmente como um agente de IA de nível de projeto. Ele pode ler todo o repositório de código, planejar entre arquivos, executar alterações diretamente, rodar testes e iterar automaticamente com base nos resultados de falha.

A definição do site da Anthropic para o Claude Code: um agente capaz de ler repositórios de código, fazer alterações entre arquivos, executar testes e entregar código commitado.

Isso significa que ele realmente modificará arquivos, executará tarefas e interagirá com todo o projeto de código.

A Anthropic também está ciente da importância desse assunto, portanto, repetidamente aborda os permissões, o sandbox e o problema da fadiga de aprovação do Claude Code em seu blog de engenharia.

Por padrão, alterações de arquivos de alto risco ou execução de comandos exigem aprovação do usuário; para reduzir a fadiga de aprovação causada por autorizações repetidas, a Anthropic também introduziu o sandboxing, permitindo que o Claude Code opere com maior segurança dentro de limites pré-definidos do sistema de arquivos e da rede.

Quando uma IA pode executar comandos e modificar código online, o custo dos erros se torna completamente diferente. Os objetivos de treinamento também mudam: de “escrever corretamente” para “escrever de forma segura, confiável e sustentável”.

Essas coisas não podem ser extraídas de corpora de código comuns. Antes, estavam escondidas nas revisões de código de engenheiros experientes, eram experiências transmitidas de pessoa para pessoa. Agora, a Anthropic quer recrutar especialistas humanos em programação para transformá-las em dados comercializáveis.

Snorkel, o subestimado "comerciante de armas de dados"

O verdadeiro protagonista de toda a história é o Snorkel.

Esta empresa saiu do Stanford AI Lab em 2019 e apostou em uma única direção: os dados, e não os modelos ou a potência de cálculo, são o que realmente determinam o sucesso ou fracasso do aprendizado de máquina.

Os dois fundadores principais do Snorkel são Alex Ratner e seu orientador na Stanford, Chris Ré, que descrevem as origens acadêmicas centrais do Snorkel.

Alex Ratner, cofundador e CEO da Snorkel AI

Em 2015, o Snorkel era apenas um "projeto de tarde" durante o doutorado de Ratner: em vez de gastar muito dinheiro contratando pessoas para rotular dados um a um, era melhor usar programas e regras para fazer "supervisão fraca" (weak supervision), permitindo que o modelo aprendesse sem a marcação manual individual.

Com base nessa abordagem, o Snorkel acumulou mais de 60 artigos científicos, e sua ferramenta de código aberto foi adotada por empresas como Google e Intel, até ser oficialmente separada em uma empresa em 2019.

Co-fundador da Snorkel AI e professor da Stanford, Chris Ré

O mentor de Ratner, Chris Ré, também é um cara duro.

Ele é professor de Stanford, ganhador do prêmio MacArthur "Genius", empreendedor serial, cujos projetos foram adquiridos pela Apple e que fundou a SambaNova, cuja avaliação chegou a US$ 5 bilhões.

O mais interessante ainda é a transformação dessa empresa.

O que o Snorkel buscava resolver era o problema persistente da anotação manual — lenta, cara e instável. Na época, cerca de 80% do tempo no desenvolvimento de IA era gasto na anotação manual de dados, por isso, o sonho original do Snorkel era liberar as pessoas o máximo possível desse processo de anotação.

Mas na era dos modelos de ponta, o mais escasso e valioso voltou a ser a pessoa — apenas agora, na forma do gosto e julgamento de especialistas como doutores, médicos, advogados e engenheiros sênior. Esta empresa, que começou com o princípio de “usar menos pessoas”, agora tem seu negócio mais lucrativo organizando um caro exército de especialistas para treinar a IA de ponta — Marlin é apenas um desses projetos.

Seu fluxo de trabalho também corresponde exatamente às necessidades do projeto Marlin.

O site do Snorkel descreve este fluxo de trabalho da seguinte forma: primeiro, defina a tarefa, os critérios de avaliação e os validadores, delimitando o que constitui “bom”; em seguida, execute a linha de produção de revisão por especialistas, com autores, vários revisores e um árbitro final verificando cada etapa, com registro completo de todo o processo.

Instruções do site do Snorkel: após divergências na avaliação serem resolvidas por arbitragem, as alterações são registradas no histórico de mudanças nos critérios de pontuação, permitindo rastrear cada modificação, incluindo quem, quando e com base em quê.

Ele também configura o ambiente de avaliação e os dados, permitindo que as mesmas tarefas sejam executadas repetidamente em diferentes versões do modelo, gerando pontuações reprodutíveis e comparáveis. Para que as pontuações sejam limpas e comparáveis, os avaliadores não podem ser influenciados pela versão. Esses engenheiros externos não sabem qual versão estão avaliando — essa é a razão.

The quote also speaks volumes.

O Snorkel oferece cargos jurídicos públicos com pagamentos de US$ 10 a US$ 100 por tarefa de alta qualidade; já as tarefas de engenharia de software da Marlin pagam US$ 280 por tarefa, cerca de uma hora, o que equivale a cerca de 2,5 vezes o salário horário da concorrência (a Scale AI e a Mercor pagam até US$ 110 por hora aos engenheiros). Especialistas de ponta podem ganhar mais de US$ 3.000 por semana.

O feedback desses engenheiros externos recrutados pela Snorkel é realmente caro.

A lista de clientes inclui Google, Mistral e Anthropic. Em maio de 2025, a Snorkel concluiu seu financiamento da série D com uma avaliação de 1,3 bilhões de dólares.

Kate Jensen, responsável por receitas da Anthropic, afirmou que para liberar todo o potencial do Claude, é necessário introduzir novos métodos de avaliação com especialistas de domínio e feedback humano; a Anthropic continuará a colaborar com empresas como a Snorkel.

Empresas como Snorkel, Scale e Mercor eram anteriormente consideradas “plataformas de anotação”. Hoje, tornaram-se a cadeia de suprimentos invisível por trás das empresas de modelos de ponta.

É esse exército invisível de especialistas espalhados pelo mundo que alimenta o AI mais inteligente.

Vários gigantes

Estão competindo pelos mesmos dados

Não é só a Anthropic que está comprando capacidade de engenharia real. Esta competição envolve vários jogadores importantes, apenas com abordagens diferentes.

O Cursor segue o caminho dos dados do produto.

Ela declara oficialmente: após o usuário ativar o modo privado, o código nunca será usado por ela ou por terceiros para treinamento; somente ao desativar o modo privado, ela poderá usar dados do repositório de código, prompts, ações de edição e trechos de código para aprimorar as funcionalidades de IA e treinar modelos.

O modelo Tab do Cursor produz mais de 1 bilhão de caracteres editados por dia, com uma demanda cerca de 100 vezes maior que a versão inicial. O Composer, ainda mais avançado, é treinado por meio de aprendizado por reforço (RL) para que o modelo aprenda a chamar ferramentas como edição e busca em ambientes com grandes tarefas de código, lidando com tarefas de engenharia de ciclos mais longos.

O Composer 2.5 mais recente é totalmente voltado para tarefas de longo prazo que exigem centenas de etapas.

Musk adota o método de vinculação de capital/opção de aquisição.

Em fevereiro deste ano, a xAI foi incorporada à SpaceX. Fim de abril, a SpaceX adquiriu o direito de comprar a Anysphere, empresa-mãe da Cursor, por 60 bilhões de dólares este ano, ou pagar inicialmente 10 bilhões de dólares para estabelecer uma parceria profunda. O que Musk valoriza é exatamente os dados de comportamento de desenvolvedores reais mais ativos do mundo detidos pela Cursor.

Em 25 de maio, Musk anunciou no X que o novo modelo básico Grok V9-Medium foi treinado, com 1,5 trilhão de parâmetros, três vezes mais que o modelo atual em produção. Ele destacou especificamente que esse desempenho foi alcançado antes de re-treinar com dados do Cursor; após essa adição, "a capacidade de programação será muito maior", e o modelo está previsto para ser lançado em meados de junho.

Assim, o V9 será o primeiro Grok a "consumir" sistematicamente dados de comportamento de desenvolvedores reais.

O Codex posterior da OpenAI também seguiu esse caminho. O Codex, lançado em 2025, é impulsionado pelo codex-1, que, segundo a OpenAI, foi treinado por aprendizado por reforço em tarefas de codificação reais, com o objetivo de escrever código que se aproxime do estilo humano e siga os hábitos de PR, além de executar testes repetidamente até passar; cada tarefa é executada em um sandbox isolado com seu repositório de código pré-instalado.

Atualmente, o Codex foi atualizado para a plataforma de codificação agente da OpenAI, impulsionada por seus modelos de codificação de ponta; mais de 5 milhões de usuários por semana.

O que eles estão disputando, na verdade, é a mesma coisa: dados de processo, apenas com caminhos diferentes.

A Anthropic primeiro teve o modelo, mas faltavam feedbacks de ambientes reais de desenvolvimento, então pagou a cerca de 1.000 engenheiros para decompor o processo de engenharia de software em dados aprendíveis;

O Cursor já possui produtos e comportamentos reais de usuários, além de modelos de programação próprios, como Tab e Composer. No entanto, em comparação com a OpenAI e a Anthropic, o que lhe falta mais é uma base de modelos fundamentais gerais e poder de treinamento em grande escala;

O que Musk também precisa são dados; ele simplesmente tenta gastar centenas de bilhões de dólares para adquirir uma entrada de produto que gere continuamente dados de comportamento de desenvolvedores;

Com modelos e produtos da OpenAI em abundância, ele criou um ambiente de teste para que o modelo aprendesse por reforço, experimentando, testando, corrigindo e iterando em tarefas de codificação reais.

Várias abordagens diferentes, caminhos distintos, mas todos estão treinando seus modelos de programação por IA com dados cada vez mais próximos dos cenários reais de engenharia.

A verdadeira vantagem competitiva

É o gosto e julgamento das pessoas

Um artigo chamado SWE-chat realizou pela primeira vez uma coleta em larga escala de sessões reais de codificação por agentes: 6.000 sessões, mais de 63.000 prompts de usuários e 355.000 chamadas de ferramentas.

Ele chega a um número doloroso: apenas 44% do código gerado por agentes acabaram sendo incluídos nas submissões dos usuários. Mais da metade foi excluído, modificado ou rejeitado.

SWE-chat em teste: o vibe coding já representa 41% das conversas, mas apenas 44% do código escrito por agentes acabam sendo enviados; os usuários corrigem, relatam erros ou interrompem em 44% das rodadas de interação para reverter as saídas do modelo.

Isso indica que benchmarks antigos, como o HumanEval, já foram saturados, e apenas olhar para as pontuações não tem mais muito sentido. O verdadeiro campo de batalha são os dados provenientes de processos reais de desenvolvimento, com repetições, tentativas e erros, e reescritas.

Quanto mais poderoso o modelo, mais você precisa gastar para comprar a parte que os humanos ainda não foram substituídos: intuição de engenharia.

A Anthropic paga US$ 280 por tarefa; convide cerca de 1.000 engenheiros para votar em A/B: esse trabalho aparentemente pesado é exatamente o que está sendo comprado.

Quem conseguir transformar os dados do local de trabalho em informações que o modelo possa processar, terá o bilhete de entrada para a próxima fase da programação baseada em IA.

Anthropic contrata 1.000 engenheiros a US$ 280 por tarefa para melhorar o código do Claude

O que foi comprado por 280 dólares por hora?

Por que precisa ser engenheiro?

Snorkel, o subestimado "comerciante de armas de dados"