A IA da China está atrás dos EUA no acesso a chips de treinamento de alto desempenho e poder de computação

Limitação de poder de mineração

Desde o final do ano passado, GPUs nacionais como Moore Threads, Muxi Shares, Biren Technology e TianShu Intelligent Chip despertaram um entusiasmo no mercado de capitais. No entanto, sob o banquete de riqueza no mercado secundário, uma linha oculta que não pode ser ignorada está se tornando cada vez mais clara, e as questões que ela levanta estão se tornando cada vez mais urgentes.

Nos últimos anos, os chips de IA nacionais concentraram-se principalmente na "lateral de inferência", relativamente segura e mais periférica, como o recente plano do DouBao para adquirir 50 mil chips da TianShu Intelligence para tarefas de inferência, atendendo à alta frequência de chamadas desta maior aplicação de IA da China.

Nessa sequência de topo da pirâmide de poder de computação para treinamento de IA, os chips nacionais atualmente só podem participar de tarefas periféricas e auxiliares.

Os chips de treinamento de IA são principalmente utilizados para o treinamento de modelos de inteligência artificial, durante os quais são realizadas grandes quantidades de operações matriciais e ajustes de parâmetros, exigindo alta capacidade de computação e eficiência energética; são mais poderosos e também muito caros, como os NVIDIA A100, H100, H200 e a série AMD MI300.

Em comparação, a tarefa dos chips de inferência é muito mais leve. Utilizados na fase de implantação após o treinamento do modelo, são responsáveis principalmente por executar tarefas de inferência, exigindo alta latência em tempo real; os chips de inferência precisam garantir precisão enquanto apresentam resposta rápida e baixo consumo de energia.

Um análogo adequado é que o treinamento permite que o modelo de IA "aprenda conhecimento", enquanto a inferência permite que o modelo grande "utilize esse conhecimento". Durante a fase de aprendizado, os chips de treinamento devem acessar grandes volumes de dados para "alimentar" a atualização dinâmica de parâmetros em bilhões, trilhões e até dez trilhões, exigindo não apenas poder de processamento robusto, mas também largura de banda e capacidade de comunicação eficientes, além de garantir estabilidade em clusters de milhares de unidades.

A lacuna entre os modelos da China e dos EUA reside nesses locais "invisíveis", especialmente na ausência de chips avançados de treinamento.

Sob as leis de escala dos grandes modelos, quanto maior o número de parâmetros do modelo, maior a demanda por computação, que cresce linearmente. Os custos exponencialmente crescentes de computação e hardware tornam o treinamento de grandes modelos um “jogo exclusivo” de poucas gigantes tecnológicas.

Entre as grandes empresas de tecnologia dos Estados Unidos, apenas a Meta planeja implantar mais de 1,2 milhão de GPUs de alto desempenho até o final de 2026, com investimentos anuais superiores a 145 bilhões de dólares; além disso, estima-se que a capacidade total de IA da Google equivale a 5 milhões de GPUs NVIDIA H100, representando um quarto do total global.

As quatro empresas Amazon, Microsoft, Alphabet e Meta gastaram US$ 725 bilhões em despesas de capital este ano, um aumento de 77% em relação ao ano anterior, um volume equivalente a 13% do investimento total interno privado dos Estados Unidos no ano inteiro. O Morgan Stanley prevê ainda que, até 2027, os gastos de capital das empresas de tecnologia dos EUA possam atingir um recorde histórico de US$ 1,1 trilhão.

Atualmente, os Estados Unidos controlam mais de 70% dos GPUs de alto desempenho globais, e após as restrições de chips, os chips de alto desempenho disponíveis no país são apenas 1/8 dos dos Estados Unidos. O Relatório de Índice de IA da Stanford 2026 aponta que o número de data centers nos Estados Unidos (5.427) é mais de dez vezes o da China.

De acordo com cálculos do Instituto de Informação e Comunicação da China (CAICT), até o início de 2025, a capacidade de processamento dos Estados Unidos era de 2400 EFLOPS, enquanto a da China era de 1053 EFLOPS, ou seja, mais de duas vezes a da China.

A capacidade de processamento detida por cada uma das quatro grandes empresas de tecnologia mencionadas acima supera a soma de todas as empresas de IA da China.

Essa vantagem esmagadora em poder de computação permite que empresas americanas realizem dezenas de iterações de experimentos com grandes modelos em um ano.

Elon Musk foi ainda mais longe: sua xAI possui o Colossus 2, denominado o primeiro cluster de IA de GW do mundo. Por isso, ele tem base para afirmar que está treinando simultaneamente sete modelos — dois de 1 trilhão, dois de 1,5 trilhão, um de 6 trilhões e um de 10 trilhões de parâmetros. Essa "estética da força" só é possível com uma capacidade de computação extremamente abundante.

Ao mesmo tempo, devido às restrições dos Estados Unidos às exportações de chips, a participação das empresas chinesas nos chips AI de alto desempenho embarcados nos últimos anos tem diminuído continuamente (segundo estatísticas da epoch.AI).

Pode-se dizer sem exagero que a enorme disparidade na capacidade de processamento fará com que a IA chinesa permaneça por muito tempo em uma fase de追赶, e tornará ainda mais difícil para os grandes modelos nacionais alcançarem seus pares americanos.

Diferença geracional

O ritmo da inovação na China é inarrestável; quem acha que a China não consegue produzir (chips) está realmente errado. A diferença entre a China e os EUA é apenas de nanosegundos.

O fundador da NVIDIA, Jensen Huang, elogiou mais de uma vez o progresso da semicondutora chinesa em eventos públicos.

Elon Musk também frequentemente expressa opiniões semelhantes no X: “A China certamente resolverá o problema do gargalo de chips; no campo de poder de computação para inteligência artificial, certamente superará todos os outros países do mundo”, “A China vencerá a corrida pela IA na Terra”.

Figuras de grande renome no setor de tecnologia elogiam excessivamente o desenvolvimento da IA na China, o que facilmente leva as pessoas a acreditar neles. Essas declarações claramente têm o potencial de promover um elogio destrutivo. Alguns meios de comunicação americanos continuam a divulgar a ideia de que a lacuna entre os modelos da China e dos EUA é mínima, tentando confundir os fatos e ocultar algumas verdades objetivas.

Para isso, todos os setores relacionados à IA no país devem manter clareza e calma.

Se, hoje em dia, os grandes modelos avançados da China apresentam pouca diferença em relação aos concorrentes americanos ao resolver problemas padronizados, a lacuna se torna mais evidente em ambientes industriais e empresariais complexos.

Em comparação com os modelos avançados de empresas americanas como a Anthropic, a China ainda é uma seguidora. A avaliação da CAISI dos EUA indica que o mais avançado modelo doméstico, DeepSeek V4 Pro, está aproximadamente 8 meses atrás dos modelos avançados dos EUA.

Li Kaifu, em recente entrevista ao Wall Street Journal, apontou que, com modelos americanos de ponta como o Claude Fable 5, lançado pela Anthropic, os EUA atualmente lideram a China em cerca de 15 meses.

Os grandes modelos seguem a lei da escala: quanto maior o número de parâmetros do modelo, mais dados de treinamento e mais poder computacional forem investidos, melhor será o desempenho do modelo. Atualmente, os maiores modelos avançados dos Estados Unidos já entraram na era de trilhões de parâmetros, e a velocidade de iteração continua a aumentar.

O mais poderoso Mythos da Anthropic já atingiu 10 trilhões de parâmetros, e treiná-lo custou 10 bilhões de dólares; o Colossus 2 da xAI está treinando simultaneamente 7 modelos, incluindo modelos de 6 e 10 trilhões de parâmetros; o ciclo de iteração da OpenAI para um modelo de 4 trilhões de parâmetros é de apenas um mês.

O modelo mais poderoso da China, DeepSeek V4 Pro, possui um total de 1,6 trilhão de parâmetros, cerca de 6 vezes menos que os modelos前沿 de 10 trilhões dos Estados Unidos.

A série Claude, da Anthropic, já é reconhecida como o maior modelo de IA para programação dos últimos dois anos, e o Mythos novamente superou as expectativas do público, apresentando desempenho ainda mais potente que o anterior flagship, Opus 4.6.

O OpenBSD tem a reputação de ser o sistema mais seguro do setor, mas o Mythos encontrou uma vulnerabilidade que passou despercebida por 27 anos, além de descobrir vulnerabilidades no FFmpeg e no kernel Linux que estavam ocultas por anos ou até décadas, tudo isso de forma autônoma, sem depender de seres humanos.

É importante saber que o "pré-treinamento" de grandes modelos determina o limite superior das suas capacidades; não é possível, por meio de "pós-treinamento", fazer com que um modelo com trilhões de parâmetros alcance o nível de desempenho de um modelo com 10 trilhões de parâmetros. O fator determinante no pré-treinamento são os chips de computação de alto desempenho, que definem a escala de parâmetros e a velocidade das iterações de treinamento.

Liu Qingfeng, presidente da iFlytek, admitiu abertamente que atualmente todas as principais empresas de modelos grandes, especialmente as gigantes dos Estados Unidos, estão construindo plataformas de computação em escala ultra-grande. Atualmente, a computação nacional realmente enfrenta um período de dificuldades, o que resulta em limitações no treinamento de contextos de texto muito longos.

Visivelmente, a diferença no poder de computação é a raiz da disparidade entre os modelos da China e dos EUA.

Ascensão nacional

Uma empresa monopoliza 90% do mercado global de chips de treinamento de IA de alto desempenho — o que ajuda a NVIDIA a manter o título de empresa com a maior capitalização do mundo. Sua capitalização de mercado chegou a superar o PIB da Alemanha, a terceira maior economia global, em 2025.

Dados da TrendForce mostram que, no Q1 de 2026, a NVIDIA deteve 68% do mercado global de servidores GPU, a AMD ocupou 5%-6%, enquanto os fabricantes chineses de GPU juntos representaram menos de 4%.

Com vantagem de primeiro-movimento, barreiras tecnológicas superiores, interconexão de alta velocidade, ecossistema de software e parceria com os processos avançados da TSMC, a NVIDIA domina o mercado. Em cenários de treinamento de alto desempenho, o GB300 da NVIDIA supera o AMD MI325 e também os modelos思元690 da Cambricon e MTT40 da Moore Threads, especialmente no treinamento de modelos de linguagem com trilhões de parâmetros, onde supera os concorrentes em mais de 30%.

Sob a proibição de exportação, Huang Renxun já havia declarado que a participação de mercado da NVIDIA na China (novos clientes) praticamente caiu a zero, restando apenas o mercado existente. Sob o apoio à política de substituição nacional, empresas como o Huawei Ascend 910, o Higon DCU Shen Suan No. 2, o Cambricon MLU370/590, além de empresas como Moore e Muxi, surgiram sucessivamente.

O Ascend 910 é o chip de maior poder de processamento da Huawei, com o Ascend 910B alcançando 640 TOPS (INT8), comparável ao chip NVIDIA A100.

Em termos de desempenho absoluto, as GPUs nacionais ainda apresentam lacunas, mas podem começar por cenários de inferência e borda. Atualmente, as GPUs nacionais atendem basicamente às necessidades de inferência gerais de entidades governamentais e empresariais no país, reduzindo a diferença em relação aos produtos intermediários da NVIDIA para 15%-20%, tornando a substituição viável.

É importante destacar que, embora o desempenho de computação seja fundamental, o ecossistema de software por trás dele é o ponto fraco dos GPUs nacionais. Assim como o CUDA é a base do império de GPUs da NVIDIA, o acadêmico da Academia Chinesa de Engenharia Zheng Weimin apontou que o problema central dos chips de IA nacionais é o ecossistema insuficiente; se o ecossistema fosse bom, mesmo com desempenho de apenas 60%, haveria quem o utilizasse.

Pode-se dizer que o ecossistema de software é a barreira mais robusta na trilha GPU, e a capacidade da NVIDIA nesse aspecto também é difícil de substituir.

O ecossistema CUDA, após mais de uma década de desenvolvimento, já conta com mais de 4 milhões de desenvolvedores, dezenas de milhares de modelos de código aberto e cadeias de ferramentas de terceiros abrangentes, cobrindo treinamento de IA, inferência, renderização gráfica e cálculo científico, com uma barreira ecológica incomparável.

Dados da IDC mostram que atualmente mais de 95% dos modelos de IA no mundo são desenvolvidos com base no ecossistema CUDA. Já os GPUs nacionais, apoiados por políticas públicas, precisam de coordenação a longo prazo com a cadeia produtiva e exigem paciência da mídia e do mercado financeiro.

Em janeiro deste ano, Zhipu, em parceria com a Huawei, lançou de código aberto o novo modelo de geração de imagens GLM-Image, que foi treinado integralmente em dispositivos Huawei Ascend Atlas 800T A2 e na estrutura de IA MindSpore Ascend, concluindo um ciclo completo desde o processamento de dados até o treinamento do modelo — sendo o primeiro modelo multimodal SOTA treinado integralmente com chips nacionais;

A Moortens também, em parceria com o Instituto de Inteligência Artificial Zhiyuan de Pequim, concluiu o treinamento completo do modelo RoboBrain 2.5, desenvolvido internamente pelo Zhiyuan, utilizando o cluster de computação inteligente MTT S5000 e o framework FlagOS-Robo. Este resultado validou pela primeira vez a viabilidade de clusters de computação nacional no treinamento de grandes modelos de inteligência embutida.

É possível perceber que as GPUs nacionais já alcançaram avanços em compatibilidade e construção de ecossistema, passando de uma “quebra pontual” no lado de inferência para uma “adaptação progressiva” no lado de treinamento — um grande avanço.

Resumo

Em termos gerais, diante do obstáculo às importações de chips avançados no exterior, é aconselhável adotar uma abordagem “ocidental e oriental combinadas”, caminhando com duas pernas, ao mesmo tempo em que se apoia fortemente os chips de computação domésticos para atender à urgente demanda de mercado.

A autenticidade da demanda é indiscutível, a teoria da bolha ainda existe, mas suas vozes não estão ficando mais altas. O entusiasmo do mercado global pela construção de IA já superou qualquer outro estágio inicial de desenvolvimento de indústria anterior.

Este ano, o mercado global de capitais voltou a experimentar um ciclo superinteligência artificial, com ações da Samsung, SK Hynix, Broadcom e TSMC atingindo novas máximas históricas. No mercado doméstico, tecnologias duras representadas pela Cambricon também apresentaram forte alta, e a capitalização de mercado do gigante de módulos ópticos InnoLight chegou a superar a da Kweichow Moutai.

Ao revisar a história do desenvolvimento da semicondutora da Coreia do Sul, a Coreia do Sul apoiou a indústria de chips de armazenamento com esforço nacional, superou os momentos mais sombrios e finalmente superou o Japão, tornando-se o absoluto líder mundial da indústria de armazenamento.

Mesmo em relação a chips de armazenamento, chips de celulares e, atualmente, chips de IA, a China ainda está em fase de追赶. Isso certamente não é algo que pode ser alcançado da noite para o dia. No entanto, graças ao enorme mercado, ao constante surgimento de talentos em IA e à vasta capacidade financeira, os GPUs nacionais já começam a demonstrar certa adaptabilidade, capazes de atender às necessidades reais de muitas empresas de IA.

Neste jogo de IA sobre o destino nacional, os Estados Unidos e a China são ao mesmo tempo rivais e possuem tecnologias, mercados e recursos que o outro precisa.

Este artigo é do número oficial do WeChat: Jutao WAVE, editado por Yang Xuran, autor: Xie Zefeng, título original: «O Desafio da Capacidade de Processamento Sob o Jogo de AI entre EUA e China | Jutao»