Após a IA devorar tudo, o que permanece não treinável?

Introdução: À medida que a capacidade da IA continua a evoluir, o mundo dos investimentos está surgindo um novo julgamento pessimista: se os modelos se tornarem cada vez mais poderosos, todas as empresas de aplicativos acabarão sendo absorvidas por camadas de modelos e computação como Anthropic, OpenAI e Nvidia, deixando o mercado apenas com modelos avançados, infraestrutura de computação e poucas infraestruturas. Mas Sarah Guo acredita que esse julgamento está apenas parcialmente correto. Aquelas “thin wrapper” (embalagens finas, ou aplicações simples que envolvem modelos) de fato serão absorvidas, assim como todas as tarefas que podem ser medidas por benchmark, treinadas com dados públicos e validadas com baixo custo também tenderão a se tornar mercadorias.

A verdadeira questão é: após a IA consumir tudo o que pode ser treinado, o que ainda não pode ser treinado?

A resposta deste artigo são os valores que existem dentro de organizações reais e não podem ser facilmente replicados externamente: dados privados da empresa, fluxos de trabalho complexos, confiança do usuário, permissões do sistema, julgamento do setor, responsabilidades de conformidade e experiência acumulada ao longo do tempo. Modelos podem ser mais inteligentes, mas não podem acessar automaticamente os sistemas de produção de um banco; podem gerar respostas médicas, mas não podem obter diretamente a confiança dos médicos nem os processos de decisão dos hospitais; podem escrever textos jurídicos, mas não podem assumir a responsabilidade de advogados experientes nem definir arbitrariamente o que constitui um trabalho jurídico adequado.

Portanto, as empresas de IA que realmente terão uma vantagem competitiva no futuro não serão aquelas que simplesmente são mais inteligentes do que modelos gerais, mas sim aquelas que se aprofundam dentro de um setor específico e realizam o trabalho difícil, mas essencial, de “tradução”: organizar a realidade privada, ferramentas, processos e critérios de julgamento dos clientes em sistemas que o modelo possa executar, e, ao longo do tempo de serviço, definir gradualmente o que constitui um “bom resultado”. Quanto mais poderosa for a IA, mais os tarefas mensuráveis e replicáveis perderão valor; e mais destacará aquilo que é “não treinável” — aquilo que carrega história, relacionamentos, permissões e julgamento profissional. Esse é o verdadeiro valor que ainda poderá permanecer após o consumo dos modelos.

A seguir está o texto original:

Em meados de 2026, a versão do investidor de “Loucura da IA” é uma sensação de desespero de que não há mais nada digno de investimento: parece que deveríamos investir todo o nosso dinheiro na Anthropic e na Nvidia e ir dormir. Mas eu nunca tive essa sensação. Desde várias versões anteriores, sempre acreditei que os modelos já são mais inteligentes do que eu; ficaria feliz em comprar Anthropic e Nvidia aos preços de mercado; meus amigos mais inteligentes também estão bastante convencidos de que a autoaprimoração dos modelos logo se tornará real — mas ainda assim, não sinto esse desespero.

Essa desesperança não é tola. Sua lógica é a seguinte: se o modelo continuar a se tornar cada vez mais forte em tudo, então todas as empresas construídas sobre o modelo serão apenas uma fina camada de casca à espera de ser absorvida pelo modelo; o único valor que permanecerá será a capacidade de processamento e os pesos dos modelos mais avançados.

Como exemplo de software, este é o caso em que esse sentimento de desespero é mais dependente. Quando o Devin foi lançado em 2024, conseguia resolver apenas 13% das tarefas nos benchmarks padrão de software, sendo amplamente desprezado pelo mercado. Um ano e meio depois, os agentes mais poderosos já alcançam pontuações superiores a 80% e começam a realizar tarefas reais dentro de empresas como Goldman Sachs e do Exército dos Estados Unidos. Quase todos chegaram à mesma conclusão errada: o modelo devorou a engenharia de software.

Mas quando o modelo ingeriu a parte mais facilmente mensurável da engenharia de software, também estamos reaprendendo um ponto que muitas equipes já sabiam: a engenharia sempre resistiu à mensuração, e a parte mais facilmente mensurável não é necessariamente a única importante.

Mert Demirer do MIT e seus colaboradores finalmente quantificaram isso: entre mais de 100 mil desenvolvedores, os agentes de codificação da nova geração aumentaram a quantidade de código escrito em cerca de 180%, mas a quantidade de código realmente entregue e implantada aumentou apenas cerca de 30%. Escrever código ficou mais barato, mas os demais passos ainda dependem de pessoas, e esses passos são importantes. Claro, o impacto líquido geral ainda é impressionante.

Benchmarking é algo que você pode medir; e qualquer coisa que possa ser medida pode ser treinada. Por isso, os Agentes de codificação amadureceram primeiro: os compiladores são validadores gratuitos, e os conjuntos de testes também são validadores gratuitos. Quando a resposta pode ser autoverificada quase sem custo, você pode refinar continuamente em torno desse sinal de verificação até perfurá-lo.

Mas passar em testes nunca significa que essa alteração está correta para um repositório de código que já está em funcionamento há dez anos. Esse módulo pode existir por três razões que nunca foram documentadas; a pipeline de implantação pode estar sendo mantida apenas por um cron job que ninguém quer admitir ter escrito.

Essa corretude não pode ser lida diretamente de uma classificação, nem de qualquer outra coisa. Você só pode saber se um sistema tão complexo realmente funciona deixando-o operar no mundo real por tempo suficiente. E modelos mais inteligentes não fazem o mundo real funcionar mais rápido. Ninguém confiaria plenamente em um sistema do tamanho do Google apenas porque passou em todos os testes unitários e exibia marcas verdes. Você confia nele porque ele já suportou anos de carga real.

Essa correção não é apenas privada, mas também uma barreira competitiva que se forma lentamente, uma barreira que o capital não pode comprimir diretamente no tempo. Mesmo os otimistas reconhecem que esse relógio não pode ser pulado. Noam Brown, pioneiro nos modelos de inferência da OpenAI, escreveu recentemente: o único método confiável para avaliar o desempenho de um Agente ao longo de um ciclo de um ano pode ser deixá-lo operar realmente por um ano.

Como Gabe Pereyra disse, a automação real não é apenas sobre os modelos se tornarem mais fortes. É sobre o produto, o modelo, o fluxo de trabalho e a organização da empresa mudarem juntos, e desses quatro, três avançam na velocidade da organização.

Mover as pessoas é algo que nenhum teste consegue alcançar: convencer um parceiro cético a mudar sua forma de lidar com as coisas e manter a coesão de uma equipe durante um processo de reconstrução. É por isso que, ao contratar um CEO, valorizamos sua capacidade de lidar com pessoas, pelo menos tanto quanto sua capacidade analítica. Modelos mais inteligentes não alteram esse peso.

O feedback aqui é vago; o intervalo de tempo é medido em anos, enquanto a confiança pertence a uma pessoa específica. Cada empresa que conheço já permitiu que cada engenheiro utilizasse modelos de codificação de ponta, mas nenhuma organização de engenharia mudou na velocidade próxima à do avanço do modelo. A adoção da ferramenta levou apenas um trimestre — e que trimestre mágico foi aquele de crescimento de tokens! Mas a verdadeira reconstrução exige anos.

O trabalho que pode ser visto está saindo. O trabalho verdadeiramente valioso é, por sua natureza, ilegível: qualquer coisa que você possa colocar em uma classificação pode ser usada para treinamento; portanto, qualquer coisa mensurável já está em processo de comercialização. Esse processo leva tempo e nunca será completamente concluído, mas a direção nunca será revertida.

Na linguagem do dinheiro, conforme dito pelo meu amigo Matt MacInnis da Rippling: um token que serve apenas para responder a uma pergunta geral vale quase nada, pois qualquer modelo pode respondê-la; mas um token que realiza raciocínio com base nos dados da sua empresa vale muito mais, pois faz exatamente o que você realmente quer — e não apenas gera uma resposta que parece plausível.

O trabalho legível será engolido de dois lados.

Visto de baixo, a tarefa se saturará: assim que um trabalho puder ser verificado a baixo custo, o comprador deixará de se importar qual modelo o realizou e passará a perguntar quanto custa. Assim, o trabalho acabará sendo atribuído ao modelo de código aberto ou ao modelo de destilação mais barato da semana. Desde que as margens de lucro funcionem, elas finalmente acabarão funcionando.

Visto de cima, o laboratório está tentando fazer com que o modelo engula sua própria estrutura de suporte. Roteamento entre busca, chamadas baratas e chamadas caras, uso de ferramentas e até estratégias de raciocínio — todos os dispositivos que antes envolviam o modelo externamente — estão sendo puxados para dentro dos pesos do modelo, até que o próprio “invólucro” se torne o modelo. Este é o limite de absorção.

A pressão de lucro também atua em outra direção: um agente geral deve estar sempre pronto para lidar com qualquer coisa, o que torna os custos altos; já uma aplicação focada pode otimizar um fluxo de trabalho ao máximo, consumindo apenas uma pequena parte dos tokens. E, ao contrário dos laboratórios que vendem esses tokens, as empresas de aplicativos podem manter a diferença intermediária.

Portanto, podemos fazer duas perguntas a qualquer tipo de trabalho: sua correção é privada e cara, e é uma verdade que existe apenas dentro dos dados de uma empresa? Ela está isolada em um sistema inacessível a estranhos? Ao combinar essas perguntas com o grau de saturação da tarefa, obtemos uma matriz 2×2.

Trabalhos já saturados e com respostas públicas são o domínio dos tokens comercializados, e modelos de código aberto os dominarão. Trabalhos de ponta, mas com respostas públicas, como testes de codificação, são os lugares onde os laboratórios vencerão, pois quando a avaliação é gratuita, possuí-la não tem valor.

O verdadeiro prêmio está no último canto, o canto “não treinável”: trabalhos de ponta, cuja validade existe apenas em ambientes privados. Você pode ver isso nas nuvens de inferência que servem aos pioneiros nativos da IA: a maioria absoluta dos tokens é gerada por modelos personalizados, e não por modelos abertos e gerais.

As paredes que levam a este último canto variam em altura. Um repositório de código de brinquedo de um desenvolvedor é portável e padronizado, então entrar nele não é difícil. Mas o sistema de produção de um banco não é portável nem padronizado. Você não obtém permissões root apenas por ser 2% mais esperto no SWE-Bench Verified.

A capacidade pode engolir muitas coisas, mas modelos melhores não transformam padrões privados e reais em padrões públicos. Eles não detêm licenças, não assinam responsabilidades e não possuem documentos corporativos; quando as respostas estão erradas, não podem ser processados. O gargalo aqui não é a inteligência, mas sim a autorização e a responsabilidade. Você pode imaginar um modelo muito mais inteligente do que qualquer pessoa, mas ainda assim ele precisa ser autorizado a entrar, e ainda precisa haver alguém que assine seu nome em tudo o que ele faz.

A porta tem uma fechadura e um trinco.

Aquele bloqueio é o contexto: apenas após ganhar confiança dentro de um sistema, passar por uma revisão de segurança, concluir a integração e assinar um contrato com responsabilidade pelos resultados, você poderá verificar se a IA realmente realizou algo útil.

O bloqueio é o usuário. Hoje, a maioria dos médicos nos Estados Unidos abre o OpenEvidence diariamente — algo que nenhuma quantidade de poder computacional pode comprar. Um laboratório pode treinar um modelo médico perfeito amanhã, mas ainda assim não conseguirá entrar nos hábitos de uso dos médicos nem nos processos de decisão da UCSF. Porque a confiança é construída lentamente, por meio de relacionamentos e da autorização implícita dos usuários, e não por meio da descida de gradiente para apagá-la.

É exatamente esse o trabalho da empresa de aplicativos. Um aplicativo ocupa um espaço em cantos "não treináveis" graças a tarefas nada glamorosas: organizar a realidade privada de uma empresa para que o modelo possa agir com base nela; fornecer ferramentas de ação ao modelo; e trabalhar com os clientes para transformar a forma como sua força de trabalho opera na prática.

Uma empresa capaz de realizar essa «tradução» é difícil de ser replicada, e essa tradução nunca termina. A integração e a manutenção continuam ao longo da relação com o cliente. Os vencedores são as equipes que colocam engenheiros especializados no domínio e ferramentas ao lado do cliente.

Por exemplo, em um dos principais escritórios de advocacia tradicionais, apenas a área de fusões e aquisições realiza quase mil transações por ano. Você não pode permitir que centenas de estagiários baixem os arquivos dos clientes diretamente para a área de trabalho e os entreguem a um agente genérico para leitura. Por razões de confidencialidade, isso já não é permitido, sem falar nos outros dezenas de problemas envolvidos. Mesmo que fosse possível, o que você aprenderia seria fragmentado: um estagiário corrige um pequeno ponto de cada vez, e ninguém consegue ver como toda a transação flui como um todo.

Os sinais verdadeiramente importantes existem no nível da transação. Uma transação tem sua própria forma: para fusões e aquisições, são NDA, term sheet, due diligence, contrato de compra, documentos acessórios e lista de entrega; para litígios de propriedade intelectual, são petições, descoberta de evidências, tecnologia anterior, mais petições. Cada área de negócio possui sua própria estrutura, e advogados e ferramentas não podem ser trocados arbitrariamente.

O problema real que esse escritório de advocacia precisa resolver está em um nível ainda mais elevado: como gerenciar simultaneamente todos os campos de negócio, assim como sócios sênior gerenciam centenas de tarefas em paralelo, ao mesmo tempo em que atraem novos clientes e treinam estagiários. Transformar uma empresa desse tipo não é um problema único que você possa definir como uma tarefa de avaliação. Ele exige um gestor que o trate como se fosse um jogo de “baseball de dados”: metas intermediárias extremamente vagas, feedback incompleto, ciclos extremamente longos e um ambiente que nunca permanece estático.

Infelizmente, valores ilegíveis também são difíceis de vender, por causa da mesma razão pela qual são difíceis de comercializar: uma empresa não pode julgar externamente se a IA realmente consegue transformar suas operações como os testes de referência indicam. Portanto, as empresas mais fortes deixam de tentar provar sua eficácia externamente e, em vez disso, entram primeiro no interior do cliente e depois precificam os resultados.

A Sierra cobra apenas quando seu agente resolve o problema do cliente; se o problema for encaminhado a um humano, ela não cobra. Portanto, o preço em si se torna um mecanismo de avaliação. E isso funciona porque a Sierra possui o direito de definir o que significa “resolvido”. O Devin, da Cognition, fez o mesmo no campo de software, lançando uma “garantia de desempenho”. Somente quando você é confiavelmente inserido dentro de um sistema é que tem legitimidade para oferecer essa garantia sobre os resultados.

Mesmo na camada de serviço de token — aquele que todos costumam chamar de puro produto — seu desempenho não se comporta como um produto. As melhores empresas nativas de IA concentram seus serviços em uma ou duas fornecedoras, como Baseten ou Fireworks. Embora o custo por token tenda a se tornar um produto ao longo do tempo, a confiabilidade sob tráfego real e o acesso estável à capacidade computacional escassa não se tornam produtos. Onde fornecer serviços de inferência e quais modelos usar são duas escolhas distintas. A única parte da inferência que realmente se comporta como um produto é o preço.

Um contra-argumento comum é: o laboratório é seu fornecedor, por que ele não venderia seus próprios produtos de primeira parte abaixo do custo para te eliminar? Ou simplesmente revogaria seu acesso à API e tomaria o mercado para si? Essa é a versão real da sensação de desespero. Mas isso só faz sentido se o modelo for um jogo de uma única pessoa.

Claramente, a realidade não é essa. A camada de modelos é mais como uma corrida mortal entre três e meia partes, com um grupo de jogadores internacionais atrasados em cerca de seis meses em treinamento e uma liga de desenvolvimento cinco vezes maior do que a do ano passado. Os clientes desejam competição entre seus fornecedores, e os laboratórios querem participação de mercado mais do que eliminar qualquer aplicação específica.

Você pode ver isso nos mercados onde se pode competir diretamente no laboratório. Em cenários de bate-papo com consumidores, o melhor modelo nunca simplesmente domina todo o mercado. O ChatGPT mantém a liderança há anos em competição real; a quota que agora perde está indo para o Gemini, devido à capacidade de distribuição do Android e da busca, e não porque o modelo seja melhor. A Anthropic é atualmente considerada como tendo o melhor modelo nos mercados preditivos e no clima da internet, mas quase não é um jogador principal no bate-papo com consumidores, tendo construído seu negócio em ambientes empresariais e de codificação.

Se um modelo melhor não conseguir atrair os usuários do concorrente na aplicação mais fundamental, também não conseguirá facilmente integrar o sistema de prontuários de um hospital ou o sistema de responsabilidade de um banco. Hoje, o que o público escolhe em um produto vai além da capacidade de codificação. Se a camada de modelos de ponta ainda estiver lotada, então a camada de aplicações acima dela terá valor.

Se um trabalho não puder ser avaliado externamente, alguém internamente deve decidir o que constitui uma boa resposta. E essa decisão é, por si só, todo o jogo. Suficientes dessas decisões sendo documentadas transformam-se em benchmarks. Harvey lançou benchmarks para o campo jurídico; Sierra lançou benchmarks para agentes de voz. Você tem o direito de definir o que significa “bom” em um domínio porque esse domínio já está usando você. E essas empresas conquistaram esse direito por meio de lutas árduas no processo de adoção real.

A avaliação que realmente determina o fluxo de dinheiro é privada e formada empresa por empresa: esta empresa, nesse tipo de questão, aceitará o que como um bom trabalho. E isso está longe de ser concluído, pois a profundidade da lei ultrapassa qualquer teste público. O OpenEvidence está consolidando o que constitui uma resposta clínica segura.

Tudo isso, na verdade, não é uma “medição” no sentido verdadeiro, mas sim julgamentos sobre o que é verdadeiro e o que é bom. Esses julgamentos são escritos e, com o tempo, tornam-se padrões que todos os demais devem aceitar para medir. Independentemente de quão inteligentes se tornem os laboratórios de modelos básicos, eles não conseguem criar esses padrões do nada, pois esse status existe apenas dentro do próprio domínio.

Essa autoridade geralmente recai no local onde já existia. Advogados experientes estabelecem padrões legais. Médicos definem respostas clínicas seguras. A empresa que já possui relacionamento com o cliente decide o que significa “resolvido”.

Os limites de absorção continuarão a se expandir, pois aprenderemos constantemente a medir mais trabalhos, e o que pode ser medido será absorvido. O solo não treinável diminuirá sob os pés daqueles que nele se apoiam, portanto você não pode parar ao encontrar uma posição defensível. Você deve continuar avançando em direção às áreas que ainda não podem ser avaliadas e reavaliar continuamente os riscos.

Em uma tarefa específica, com seus próprios dados privados e sistema de avaliação, você pode treinar até o estado da arte e superar modelos gerais em cenários críticos; esse modelo especializado se tornará parte da sua vantagem competitiva. Por outro lado, se você estiver competindo na capacidade de modelos gerais, será uma guerra de capital, e você perderá para quem possui mais poder de computação. Esse é exatamente o armadilha em que empresas com acesso superficial e tarefas altamente legíveis mais facilmente caem.

Quando uma empresa decide treinar um modelo além do estado da arte em uma ampla gama de tarefas gerais para sobreviver, o resultado geralmente já é determinado pela escala dos data centers. O desfecho final muitas vezes não é a emergência de um campeão independente, mas sim a aquisição por algum jogador com poder de computação suficiente.

Tudo isso é defesa. O mais difícil é o ataque: decidir exatamente o que construir. É isso que estive procurando durante todo este ano, e provavelmente só encontrei três vezes. O modelo não pode ajudar nisso. Você o direciona para onde quiser, e ele fará o que for pedido; mas ele não pode dizer o que vale a pena ser direcionado. Você não pode criar um benchmark para isso, portanto não pode treiná-lo.

É por isso que as grandes empresas não vão se apropriar de tudo: elas manterão seu território já conquistado, e o próximo grande avanço virá de alguém que descobriu uma aplicação antes dos demais. Talvez, a intenção seja uma entrada mais escassa do que a potência de cálculo.

Essa sensação de desespero é metade correta. A camada fina realmente está sendo absorvida, e muitas coisas que parecem empresas hoje são, de fato, apenas camadas finas. Mas sua avaliação sobre “o que resta após a absorção” está errada. O mecanismo é claro, mas o ponto final não é.

A aposta que estou disposto a fazer é nesta direção: a inteligência continuará a ficar mais barata, enquanto o valor continuará a deslizar para áreas que poucos modelos conseguem alcançar. O que não pode ser treinado é aquilo que carrega valor histórico.

Então, entre em um desses campos, faça o trabalho de tradução que não é glamoroso e comece a escrever o que significa «bom» lá. Porque sempre haverá alguém que fará isso. A pontuação de benchmark mais citada deste ano é, na verdade, um mapa de território que logo se tornará sem valor, e também uma notificação: uma notificação de que certas pessoas estão prestes a perder o direito de definir o que é «bom».

[Link original]

BlockBeats