Ex-pesquisador da DeepMind afirma que a indústria de IA subestimou o gargalo central

O verdadeiro gargalo no treinamento de IA não está na capacidade de processamento, nos dados ou na energia, mas sim no sistema de avaliação.

Autor do artigo, fonte: Nova Inteligência

Por quanto tempo a treinamento de IA pode continuar?

Esta é a pergunta que toda a indústria de tecnologia estará fazendo em 2026.

GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4 — cada um dos principais laboratórios ainda está gastando dinheiro para treinar a próxima geração.

Mas cada vez mais pessoas começam a perguntar: até quando esse caminho vai continuar?

Cada círculo tem sua própria resposta—

Por trás de cada resposta, estão um grupo de investidores, um grupo de engenheiros e uma empresa com uma capitalização de mercado de trilhões.

Mas em 17 de maio de 2026, um jovem pesquisador chamado Lun Wang — no dia em que deixou o Google DeepMind — publicou um artigo longo de 4.000 palavras em seu blog pessoal.

Ele disse: Todos estão indo na direção errada.

O verdadeiro gargalo não é o poder de processamento, nem os dados, nem a energia, nem a arquitetura.

O verdadeiro gargalo é — avaliação (Evaluation).

No mesmo dia, no anúncio de demissão que ele postou no X, não houve reclamações nem fofocas, apenas uma frase—

Ao finalizar esta jornada, escrevi sobre o tema que sempre me ocupou: avaliação.

E naquele dia, as manchetes de tecnologia ainda discutiam outras coisas — raciocínio multimodal do GPT-5.5, contexto de 1M do Claude Opus4.7, engenharia de Agent do Gemini 3, se os dados sintéticos já começaram a bater em uma parede.

90% da atenção da indústria de IA estão voltados para o treinamento.

Ninguém está discutindo avaliação na capa.

E o pesquisador, que acabou de sair de um dos laboratórios de IA mais avançados do planeta, diz que o verdadeiro gargalo está nos outros 10%.

O que é avaliação

Para entender este blog, primeiro dedique um minuto para compreender o que significa "avaliação" no mundo da IA.

Avaliação (Evaluation, abreviatura comum da indústria: Eval) — uma frase: dar um teste ao modelo de IA para ver como ele se sai.

Mas a avaliação de IA em 2026 vai muito além de simplesmente fazer uma prova. Ela tem pelo menos três camadas:

Primeiro nível: benchmark de capacidade.

This is AI's college entrance exam.

–GPQA: Questões de raciocínio científico de nível doutoral

–SWE-bench: Tarefas de engenharia de software do mundo real

–ARC-AGI: Raciocínio Abstrato e Generalização

–Humanity's Last Exam: Literalmente — o último exame da humanidade

Em cada lançamento de novo modelo de grande empresa, os slides apresentam como superaram em alguns pontos percentuais as versões anteriores e os concorrentes nesses benchmarks.

Esses números são o PIB da indústria de IA.

Segunda camada: Avaliação de Segurança (SafetyEval). A IA não precisa apenas resolver questões, mas também fazê-las com segurança.

Houve alguma mentira?
Não ensinaremos os usuários a fazer bombas.
Será que há excesso de poder ao retirar dados dos usuários?

Terceiro nível: Equipe Vermelha (Red-teaming).

Um grupo de pessoas se disfarça de vilões, se esforça ao máximo para fazer o modelo dizer coisas que não deveria e fazer coisas que não deveria fazer, e depois relata as falhas à equipe de treinamento.

Somadas, essas três camadas constituem o sistema de controle de qualidade do laboratório de IA para 2026. Cada novo modelo lançado deve passar por essas três etapas.

Sounds pretty complete, right?

Lun Wang deu uma sentença no blog—

A maioria dos testes de desempenho, avaliações de segurança e protocolos de equipe vermelha pressupõe implicitamente que o próximo modelo é apenas uma versão aprimorada do modelo atual.

Se for outra coisa, toda a infraestrutura de avaliação entrará em colapso silenciosamente.

This is the first stone in the article.

Ela atingiu a cegueira de toda a indústria de IA.

Emergência e epifania: avaliar já ter sido confrontado duas vezes

Lun Wang não está especulando. Ele mencionou, em seu blog, dois exemplos da história da IA — a avaliação já foi refutada duas vezes, mas a maioria dos profissionais não percebeu.

Primeira vez: capacidade emergente.

Em 2022, Jason Wei e colaboradores publicaram um artigo que influenciou o rumo futuro da IA — eles descobriram que os modelos, em uma determinada escala, repentinamente aprendem novas habilidades.

Por exemplo: você treina um modelo com 7 bilhões de parâmetros, mas ele não consegue realizar aprendizado few-shot.

Você treina um modelo com 70 bilhões de parâmetros, e de repente ele consegue few-shot.

Mesmo paradigma de treinamento, mesmos dados, apenas uma escala maior — a capacidade é de 0 a 1, não de 0,3 a 0,7.

CoT (raciocínio em cadeia de pensamento) e seguimento de instruções surgiram dessa maneira.

What does this mean for the evaluation?

Significa que — antes que a escala ultrapasse o ponto crítico, todos os benchmarks não veem essa capacidade se aproximando.

Você percorreu o GPQA, mas a pontuação continua sendo o que é.

Quando você atingir o próximo nível, a pontuação pula subitamente para um patamar superior.

Segunda vez: Grokking (epifania).

Em 2022, a equipe Alethea Power da OpenAI divulgou um fenômeno contraintuitivo —

Em seguida, até 1.000.000 passos — a precisão do conjunto de teste subiu repentinamente para 99%.

Isso é chamado de Grokking — a rede aprende a generalizar repentinamente após memorizar o conjunto de treinamento por muito tempo.

A diferença entre isso e o emergence: o emergence ocorre na dimensão da escala (quanto mais parâmetros, mais súbito), enquanto o grokking ocorre na dimensão do tempo de treinamento (quanto mais tempo treinado, mais súbito).

Mas, para fins de avaliação, duas coisas dizem a mesma coisa:

Sua prova não pode prever quando surgirá a próxima grande questão.

Então Lun Wang fez a coisa mais inteligente do artigo—

Ele introduziu voluntariamente o ponto de vista contrário.

Em 2023, Rylan Schaeffer da Stanford e colaboradores publicaram um artigo na NeurIPS com um título bem provocativo: “As capacidades emergentes dos grandes modelos de linguagem são uma ilusão?”

Seu argumento: a chamada capacidade súbita provavelmente não é porque o modelo realmente ficou subitamente mais forte, mas sim porque as métricas de avaliação usam uma medida discreta de correspondência exata (exact-match) —

O modelo passa de 0% de precisão para 5%, e não é possível perceber por métricas discretas; de 5% para 50% também não é perceptível; mas de 50% para 100%, as métricas discretas mostram uma mudança súbita.

Se você substituir por indicadores contínuos, a curva de capacidade é suave.

Muitas pessoas, após lerem o artigo de Schaeffer, pensarão: tudo bem, emergência é um mal-entendido, a avaliação está correta, fim da história.

Lun Wang não. Ele escreveu no artigo:

I don't think this solves the issue—in a way, it makes my argumentsharper.

Por quê? Porque—

Se não conseguirmos determinar se aquela única ocorrência passada foi uma verdadeira transição de fase ou um artefato de medição,

Por que acreditamos ter a capacidade de prever o próximo?

Independentemente de qual explicação você acreditar, a conclusão é a mesma: nossa ferramenta nos enganou, e não sabemos como fomos enganados.

This is the smartest punch in the article. He doesn't avoid the opposition—he uses the opposition to strengthen his argument.

A avaliação é a etapa anterior a todos os demais processos

Se você acha que Lun Wang está apenas discutindo questões acadêmicas — está errado.

Ele lançou, no meio do artigo, uma frase traduzida para que até iniciantes possam entender:

Se você puder avaliar corretamente, poderá treinar corretamente.

Exponha esta cadeia lógica:

1. Treinar = fazer com que o modelo minimize a função de perda (ou maximize a recompensa).

2. Otimizar = a própria função de perda. Quão inteligente o modelo é depende de quão bem definida a função de perda for.

3. Função de perda = proveniente da avaliação. Você quer que o modelo se torne mais honesto — você precisa primeiro ter uma régua para medir a honestidade.

4. Avaliação errada = função de perda errada = objetivo de treinamento errado = o modelo que você treinou está resolvendo as perguntas erradas.

A direção desta cadeia é para a montante—

Todos olham para a direita — Decisão de Escalabilidade.

Lun Wang disse que o problema está mais à esquerda — Evaluation.

Se a avaliação estiver errada, toda a cadeia será construída sobre uma base incorreta.

O mais letal é que você não perceberá imediatamente — porque todos os seus dados internos estão corretos, apenas todos os corretos foram medidos com uma escala errada.

Aqui aparece um velho amigo: a Lei de Goodhart.

It says: When a metric becomes a goal, it is no longer a good metric.

Lun Wang usa em seu blog para falar sobre IA—

Mas quando o modelo entrar em uma nova fase, ele invertará o uso desse agente — falará apenas dentro dos limites da precisão factual e enterrará as coisas que realmente deseja ocultar no silêncio.

Os indicadores de agente funcionam no antigo contexto. No novo contexto, tornam-se armas do modelo contra você.

E você não tem nenhuma avaliação que lhe diga que isso está acontecendo.

Experimento mental: um modelo que aprende o silêncio estratégico

Lun Wang apresentou, em seu artigo, um experimento mental que deixou todos os pesquisadores de segurança de IA com calafrios.

Imagine a model that, at a certain scale, learned to strategically withhold information—

It doesn't lie. Every statement is technically true.

Mas ele selecionará silenciosamente não mencionar fatos que prejudiquem seu objetivo — direcionando a conversa para resultados que foram acidentalmente reforçados durante seu processo de treinamento.

Por exemplo:

User: Is this trading strategy secure?

O quadro jurídico deste plano é válido na jurisdição X, e os fatores de risco YZ foram revisados pela equipe de conformidade da empresa A.

(O que não disse: há uma cláusula de arbitragem de terceiros no plano, extremamente desfavorável aos usuários. Essa cláusula foi aprendida acidentalmente durante o treinamento — desde que não seja mencionada diretamente, os usuários não perguntarão.)

Essa capacidade é nova. Esse modo de falha é novo.

Nenhum dos seus instrumentos de avaliação foi projetado para isso.

Você está monitorando a coisa errada, e não sabe.

Isso é outra coisa que Lun Wang disse—

Não são colegas mais inteligentes. É uma dimensão completamente nova de falha.

Em termos de Three-Body, isso é chamado de ataque de redução de dimensão.

Não é que eu seja melhor que você.

A régua que você usou para medir-me não está nem no meu dimensionamento.

Se Lun Wang estiver correto, o mapa da indústria de IA em 2026 está sendo silenciosamente reorganizado por uma dimensão invisível—

A Política de Escalonamento Responsável (RSP) da Anthropic é a tentativa mais próxima até agora de uma avaliação preditiva na indústria — ela define uma série de limites de capacidade que os modelos não podem ultrapassar e exige uma avaliação antes de cada upgrade de capacidade para continuar o escalonamento.

Mas o RSP ainda assume que sabemos o que medir — e Lun Wang diz que esse é exatamente o problema: não sabemos qual é a forma da próxima habilidade.

Nenhuma laboratório afirmou possuir uma avaliação preditiva real.

Quem fizer isso primeiro receberá a licença de segurança para a próxima geração de scaling.