A CPU torna-se novo gargalo na era da IA, pois a demanda supera o foco em GPUs

Nesses anos de corrida da IA, a indústria foi quase inteiramente guiada por uma lógica: o poder de processamento define o limite superior, e a GPU é o núcleo desse poder de processamento.

No entanto, ao entrar em 2026, essa lógica começou a mudar: a inferência do modelo já não é mais o único gargalo; o desempenho do sistema está cada vez mais dependente da capacidade de execução e agendamento. As GPU ainda são importantes, mas o fator decisivo para determinar se a IA “consegue rodar” está gradualmente se deslocando para a CPU, longamente negligenciada.

Em 9 de abril, no horário dos Estados Unidos, o Google e a Intel assinaram um acordo de vários anos para implementar em larga escala globalmente os processadores Intel "Xeon" em centros de dados de IA, justamente para resolver esse gargalo. O CEO da Intel, Chen Liwu, afirmou diretamente que a IA opera em todo o sistema, e que a CPU e a IPU são essenciais para desempenho, eficiência e flexibilidade. Em outras palavras, a CPU, que foi considerada um "coadjuvante" nos últimos dois anos, está agora sufocando a expansão da IA.

Google

O CEO da Intel, Chen Lihwu, declarou nas redes sociais: A Intel está aprofundando a cooperação com o Google, expandindo de CPUs tradicionais para infraestrutura de IA (como IPU), para impulsionar conjuntamente o desenvolvimento de capacidades em IA e nuvem.

A CPU já não é mais apenas um componente passivo, mas está se tornando um dos fatores-chave na infraestrutura de IA.

01 Uma crise de oferta "silenciosa"

Enquanto todos estão focados no prazo de entrega das GPU, o mercado de CPU já está tensionado.

De acordo com relatórios mais recentes de várias distribuidoras de TI, o preço médio de venda dos CPUs de servidor aumentou cerca de 30% no quarto trimestre de 2025. Esse aumento é muito raro em um mercado de CPUs relativamente maduro.

Forrest Norrod, chefe de data centers da AMD, revelou que, nos últimos três trimestres, o crescimento da demanda por CPUs superou todas as expectativas. Atualmente, os prazos de entrega da AMD aumentaram de oito semanas para mais de dez semanas, com alguns modelos enfrentando atrasos de até seis meses.

Essa escassez é principalmente causada por uma corrida a recursos desencadeada por "efeitos secundários". Especialistas do setor indicam que, devido à extrema pressão na linha de produção de 3nm da TSMC, a capacidade de wafers originalmente alocada para CPUs está sendo constantemente desviada para pedidos de GPUs, que oferecem margens de lucro mais altas. Isso resultou em uma situação altamente irônica: laboratórios de IA possuem GPUs suficientes, mas descobrem que não conseguem comprar CPUs de topo de linha suficientes para "impulsionar" essas placas gráficas.

Nesta rodada de compras frenéticas de CPU, também há Elon Musk.

O CEO da Intel, Chen Lihwu, confirmou nas redes sociais que Musk encarregou a Intel de projetar e fabricar chips personalizados para seu projeto "Terafab" no Texas. Este grande projeto visa fornecer uma base de computação unificada para a xAI, a SpaceX e a Tesla.

A confiança de Musk na Intel deve-se em grande parte ao fato de que a Intel está tentando se integrar em todos os níveis, desde data centers terrestres até computação em órbita espacial.

Google

Para a Intel, isso certamente é um impulso significativo. Embora analistas da indústria prevejam que a AMD superará a Intel em participação de receita no mercado de CPUs de servidor até 2026, a profunda inércia e capacidade de fabricação da Intel no ecossistema x86 permanecem como fatores que clientes de grande porte, como Musk, não podem ignorar.

Essa integração profunda entre setores está elevando a competição no mercado de CPUs de uma simples comparação de parâmetros para uma disputa de ecossistemas e estabilidade da cadeia de suprimentos.

02 Por que a CPU se torna o “peso morto”?

O CPU tornou-se repentinamente um gargalo, pois a natureza do trabalho que ele precisa realizar mudou fundamentalmente na era dos agentes inteligentes.

No modelo tradicional de chatbot, a CPU é principalmente responsável pelo agendamento e processamento de dados, enquanto a GPU realiza os cálculos principais de inferência. Como as etapas intensivas em computação estão concentradas no lado da GPU, a latência geral é tipicamente dominada pela GPU, e a CPU raramente se torna um gargalo de desempenho.

Mas as cargas de trabalho dos agentes são completamente diferentes. Um agente precisa executar raciocínio em múltiplos passos, chamar APIs, ler e gravar bancos de dados, orquestrar fluxos de negócios complexos e integrar resultados intermediários em uma saída final. Tarefas como busca, chamadas de API, execução de código, I/O de arquivos e orquestração de resultados caem principalmente no lado da CPU e do sistema host. A GPU é responsável pela geração de tokens (ou seja, “pensar”), enquanto a CPU transforma os resultados desse “pensar” em ações concretas.

Pesquisadores do Georgia Institute of Technology, em um artigo publicado em novembro de 2025 intitulado “A CPU-Centric Perspective on Agentic AI”, realizaram uma análise quantitativa da distribuição de latência em cargas de trabalho de agentes. O estudo descobriu que o tempo gasto no processamento de ferramentas no lado do CPU representa entre 50% e 90,6% da latência total. Em alguns cenários, a GPU já está pronta para processar o próximo lote de tarefas, enquanto o CPU ainda aguarda a resposta das chamadas de ferramentas.

Outro fator crucial é a rápida expansão da janela de contexto. Em 2024, os modelos principais geralmente suportavam de 128K a 200K tokens. Em 2025, modelos como Gemini 2.5 Pro, GPT-4.1 e Llama 4 Maverick começaram a suportar mais de 1 milhão de tokens. O cache KV (Key-Value Cache, usado para acelerar o processo de inferência de modelos Transformers) cresce linearmente com o número de tokens, atingindo cerca de 200 GB com 1 milhão de tokens, muito além da capacidade de memória de 80 GB de um único H100.

Uma das soluções para esse tipo de problema é descarregar parte do cache KV para a memória da CPU. Isso significa que a CPU não apenas gerencia orquestração e chamadas de ferramentas, mas também auxilia no armazenamento de dados que não cabem na memória da GPU. A capacidade da memória da CPU, a largura de banda da memória e a velocidade da interconexão entre CPU e GPU tornam-se, portanto, cruciais para o desempenho do sistema.

Portanto, o CPU adequado para a era dos agentes precisa de baixa latência, acesso consistente à memória e maior capacidade de coordenação em nível de sistema, e não apenas expansão do tamanho individual dos núcleos.

03 O que as empresas estão fazendo? Alguns estão conquistando mercado, outros estão modificando o design.

Diante desta demanda repentina por CPU, as grandes empresas adotaram abordagens completamente diferentes.

A Intel é a líder tradicional no mercado de CPUs para servidores. Dados da Mercury Research mostram que, no quarto trimestre de 2025, a Intel ainda detinha 60% do mercado de CPUs para servidores, a AMD tinha 24,3% e a NVIDIA, 6,2%. No entanto, a Intel tem estado a perseguir novas tecnologias nos últimos anos, e essa explosão na demanda por CPUs representa, para ela, tanto uma oportunidade quanto um desafio.

A estratégia atual da Intel é caminhar com duas pernas. De um lado, continua vendendo processadores Xeon, estabelecendo vínculos profundos com clientes de grande escala como o Google; de outro, coopera com a SambaNova para lançar uma solução combinada baseada nos processadores Xeon e no acelerador RDU de sua própria autoria, destacando como diferencial a capacidade de executar inferência de agentes sem GPU. O roadmap dos Xeon 6 Granite Rapids e da tecnologia de processo 18A será fundamental para avaliar se a Intel conseguirá se recuperar.

AMD foi um dos maiores beneficiários da explosão da demanda por CPUs nesta ocasião. No quarto trimestre de 2025, a receita de data center da AMD atingiu US$ 5,4 bilhões, um aumento de 39% em relação ao mesmo período do ano anterior. A quinta geração de EPYC Turin representou mais da metade da receita de CPUs para servidores, e o deploy de instâncias em nuvem rodando EPYC cresceu mais de 50% ano a ano. A participação de receita da AMD em CPUs para servidores ultrapassou pela primeira vez 40%.

O CEO da AMD, Lisa Su, atribuiu diretamente o crescimento ao desenvolvimento de "agentes" — a carga de trabalho dos agentes está reorientando tarefas de volta para CPUs tradicionais.

Em fevereiro de 2026, a AMD também anunciou uma possível transação com a Meta, no valor de mais de US$ 100 bilhões, fornecendo GPUs MI450 e CPUs Venice EPYC.

No entanto, a AMD ainda tem espaço para melhoria na coordenação em nível de sistema, faltando capacidades maduras de interconexão CPU-GPU de alta velocidade, como o NVLink C2C. À medida que os sistemas de agentes exigem cada vez mais eficiência na troca e coordenação de dados, a importância desse componente está aumentando progressivamente.

A abordagem da NVIDIA para projetar CPUs é completamente diferente da da Intel e da AMD.

O CPU Grace da NVIDIA tem apenas 72 núcleos, enquanto o AMD EPYC e o Intel Xeon geralmente têm 128. Dion Harris, responsável pela infraestrutura de IA da NVIDIA, explicou: "Se você é uma empresa de grande escala, deseja maximizar o número de núcleos por CPU, o que basicamente reduz os custos, ou seja, o custo em dólares por núcleo. Portanto, é um modelo de negócios."

Em outras palavras, no sistema de poder de computação da IA, o papel do CPU não é mais o de principal unidade de cálculo geral, mas sim o de “centro de coordenação” para a GPU. Se o CPU não acompanhar, a GPU cara será forçada a esperar, reduzindo a eficiência geral.

Portanto, a NVIDIA foi projetada para priorizar a colaboração eficiente entre CPU e GPU. Por exemplo, por meio da interconexão NVLink C2C, a largura de banda entre CPU e GPU foi aumentada para cerca de 1,8 TB/s, muito superior ao PCIe tradicional, permitindo que a CPU acesse diretamente a memória da GPU, simplificando muito o gerenciamento do cache KV.

Atualmente, a NVIDIA já está vendendo o Vera CPU como um produto independente. A CoreWeave é o primeiro cliente. A transação com a Meta é ainda mais significativa, pois trata-se de seu primeiro grande "deploy puro de Grace", ou seja, a implementação em larga escala do CPU de forma independente, sem parceria com GPU.

O analista-chefe da consultoria Creative Strategies, Ben Bajarin, aponta que, em colaborações de sistema de alta intensidade, a capacidade de processamento da CPU deve ser capaz de acompanhar a velocidade de iteração dos aceleradores. Mesmo um atraso de apenas 1% nos canais de dados pode reduzir drasticamente a rentabilidade de todo o cluster de IA. Essa busca por eficiência sistêmica extrema está forçando todas as grandes empresas a reavaliar os indicadores de desempenho da CPU.

Holger Mueller, vice-presidente e analista-chefe da Constellation Research, afirmou que, à medida que as cargas de trabalho de IA se movem em direção a arquiteturas impulsionadas por agentes, o papel do CPU está se tornando cada vez mais central. Ele observou: “No mundo dos agentes, os agentes precisam chamar APIs e diversos aplicativos de negócios, tarefas que são mais adequadas para serem executadas pelo CPU.”

Ele acrescentou: “Atualmente, ainda não há consenso sobre se GPU ou CPU é mais adequada para tarefas de inferência. As GPUs têm vantagem no treinamento de modelos, enquanto ASICs personalizados como TPU também possuem suas especialidades. Mas um ponto é claro: o Google precisa adotar uma arquitetura híbrida de processadores. Portanto, é razoável que o Google tenha escolhido colaborar com a Intel.”

04 Conclusão: Na era dos agentes inteligentes, a balança de poder computacional retorna ao equilíbrio

Na mais recente observação da indústria, um dado exige nossa atenção. No acordo de cooperação de até 38 bilhões de dólares entre a Amazon AWS e a OpenAI, a oficial também mencionou explicitamente a escala de expansão de “dezenas de milhões de CPUs”.

Nos últimos anos, normalmente, o foco da indústria sempre foi os “dezenas de milhares de GPU”. No entanto, laboratórios avançados como a OpenAI trataram deliberadamente a escala de CPU como uma variável importante de planejamento, transmitindo um sinal claro: a expansão da carga de trabalho de agentes deve ser baseada em uma infraestrutura massiva de CPU.

O Bank of America prevê que, até 2030, o mercado global de CPUs poderá dobrar de tamanho, passando dos atuais US$ 27 bilhões para US$ 60 bilhões. Quase toda essa expansão será impulsionada pela IA.

Estamos testemunhando o início da expansão de uma nova infraestrutura: grandes empresas não estão mais apenas acumulando GPUs, mas também expandindo simultaneamente uma camada inteira de "infraestrutura de agendamento de CPU", projetada especificamente para fornecer suporte à execução de agentes de IA.

A parceria entre Intel e Google, bem como o significativo investimento de Musk em chips personalizados, comprovam um fato: o ponto decisivo da corrida pela IA está se deslocando para frente. Quando a capacidade de processamento deixar de ser escassa, apenas quem resolver primeiro os “gargalos” sistêmicos poderá vencer neste jogo de trilhões.

*Contribuição especial do Golden Deer para este artigo.

Este artigo é do número oficial do WeChat "Tencent Technology", autor: Li Helen, editor: Xu Qingyang