Este artigo analisará profundamente o cenário atual do desenvolvimento próprio de chips de IA por grandes empresas globais, argumentando, a partir da economia e da lógica tecnológica subjacente, por que o investimento pesado em chips próprios é uma escolha inevitável para as gigantes de tecnologia, e fará uma previsão sobre os desafios enfrentados e o cenário final da capacidade de processamento.

Autor e fonte do artigo: 0x9999in1, ME News

Introdução

Desde a explosão da IA generativa no final de 2022, a indústria global de tecnologia entrou em uma nova corrida armamentista centrada em grandes modelos. Nesta corrida, a capacidade de processamento tornou-se a infraestrutura fundamental que determina o sucesso ou fracasso. A Nvidia, graças à sua longa experiência no campo de processadores gráficos universais (GPUs) e à absoluta dominância do ecossistema de software CUDA, capturou os lucros mais substanciais desta onda de IA. No entanto, uma margem bruta superior a 70% e a capacidade de produção insuficiente para atender à demanda colocaram provedores globais de serviços em nuvem (CSPs) e gigantes da tecnologia de IA em uma ansiedade de capacidade de processamento, como se estivessem "trabalhando para a Nvidia".

Com base nesse contexto, o "ME News Think Tank" observou que as principais gigantes tecnológicas globais estão acelerando a expansão de seu foco estratégico para o hardware de base, desencadeando uma onda sem precedentes de "desenvolvimento próprio de chips de IA". Desde empresas da América do Norte, como Google, Amazon, Microsoft e Meta, até empresas chinesas como Huawei, Baidu, Alibaba e ByteDance, a fabricação de chips por grandes empresas evoluiu de uma "exploração inicial" para uma "estratégia central" crucial para a sobrevivência e o futuro das empresas. Este artigo analisará profundamente o cenário atual do desenvolvimento próprio de chips de IA por grandes empresas globais, argumentando, a partir da lógica econômica e técnica subjacente, por que o investimento pesado em chips próprios é uma escolha inevitável para as gigantes tecnológicas, além de fazer uma previsão sobre os desafios enfrentados e o futuro cenário de poder computacional.

Situação atual do desenvolvimento próprio de chips de IA pelas principais gigantes tecnológicas globais

Atualmente, os chips de IA desenvolvidos internamente por grandes empresas globais estão principalmente focados na nuvem (data centers), divididos em dois cenários principais: treinamento (Training) e inferência (Inference). Diferentemente da abordagem da NVIDIA, que busca generalidade, as grandes empresas frequentemente adotam arquiteturas de circuitos integrados específicos (ASIC), sacrificando parte da generalidade em troca de uma eficiência energética extrema em cenários internos específicos.

A trindade dos fornecedores de nuvem da América do Norte e o disruptor

As quatro grandes nuvens da América do Norte (as quatro Hyperscalers) apresentam diferenças de tempo no ritmo de desenvolvimento de seus próprios chips, mas agora entraram completamente no jogo, formando um "poo de hedge" contra a dependência da capacidade de processamento da NVIDIA.

Google: Pioneiro e referência absoluta na rota de desenvolvimento próprio

O Google foi a primeira grande empresa global a reconhecer que o aprendizado profundo impõe novos requisitos para o hardware subjacente. Já em 2015, o Google implementou internamente a primeira geração de Unidades de Processamento de Tensores (TPU). Após quase uma década de iterações, a TPU atual já evoluiu para a sexta geração (Trillium).

A vantagem do Google reside em seu ecossistema fechado: desde o hardware TPU de baixo nível, passando pelo compilador XLA e pelo framework JAX na camada intermediária, até o modelo grande Gemini na camada superior. Essa integração end-to-end entre software e hardware permite que o Google treine modelos grandes multimodais de ponta mundial sem depender de clusters de GPU da NVIDIA. Os aumentos significativos na largura de banda de interconexão e na memória de alta largura de banda (HBM) nos TPU v5p e Trillium demonstram que o Google já possui capacidade de redes de clusters em escala ultra-grande capaz de competir com o NVLink da NVIDIA.

Amazon (AWS): Com foco em custo e escolha do cliente

A história da AWS na fabricação de chips começou em 2015 com a aquisição da Annapurna Labs. Na área de IA, a AWS desenvolveu duas linhas de produtos: Trainium (focada em treinamento) e Inferentia (focada em inferência). A estratégia da AWS é altamente pragmática: ela não tenta substituir completamente as GPUs por chips próprios, mas oferece aos clientes da nuvem da AWS opções de poder de computação de alto custo-benefício. Segundo dados oficiais da AWS, o uso do chip Inferentia2 para inferência de modelos grandes oferece 50% mais desempenho por watt em comparação com instâncias Amazon EC2 similares.

Microsoft e Meta: da passividade no pagamento para a quebra ativa da situação

A Microsoft e a Meta foram os maiores compradores anteriores dos H100/A100 da NVIDIA. Para suportar o treinamento da OpenAI e seu próprio negócio Copilot, a Microsoft lançou oficialmente, no final de 2023, seu próprio chip de aceleração de IA, o Azure Maia 100. Esse chip utiliza o processo de 5nm da TSMC e é projetado especificamente para treinamento e inferência em nuvem.

O caminho da Meta está altamente alinhado com seus próprios negócios. O chip MTIA (Meta Training and Inference Accelerator), lançado pela empresa, foi originalmente projetado para modelos de recomendação de aprendizado profundo (DLRM), visando otimizar a entrega de anúncios no Facebook e Instagram. Com o boom dos modelos de linguagem grandes de código aberto da série Llama, o novo chip MTIA aumentou significativamente o suporte à inferência de IA generativa, com o objetivo de reduzir os custos astronômicos de inferência associados a bilhões de chamadas.

Substituição nacional e突围 ecológica das grandes empresas chinesas

Diferentemente da lógica das grandes empresas da América do Norte em buscar “redução de custos e aumento de eficiência”, os gigantes tecnológicos chineses, diante das restrições de exportação de chips AI avançados dos Estados Unidos, desenvolvem chips AI próprios com um caráter estratégico de “defesa mínima” e “segurança da cadeia de suprimentos”.

Huawei: pilar da capacidade de processamento nacional

A série Huawei Ascend é atualmente o único produto nacional capaz de substituir os A100/H20 da NVIDIA em treinamento em clusters de escala ultra-grande. O Ascend 910B utiliza a arquitetura Da Vinci e está profundamente integrado a frameworks nacionais, como o MindSpore, por meio da camada CANN (Computational Architecture for Neural Networks). Atualmente, mais da metade dos principais modelos de grande porte no país (como o Xinghuo da iFlytek e o Zhipu AI) já completaram ou estão em processo de adaptação e treinamento na base de computação Ascend.

A abordagem prática das grandes empresas de internet: Baidu, Alibaba e ByteDance

O Kunlun芯 da Baidu é um dos primeiros chips AI desenvolvidos internamente por grandes empresas de internet na China, já passou para a terceira geração e suporta integralmente a inferência e parte do ajuste fino do grande modelo Wenxin Yiyan. A Alibaba Pingtouge Semiconductor lançou o HanGuang 800, focado principalmente em cenários de inferência de alta concorrência internos da Alibaba, como busca de comércio eletrônico e reconhecimento de imagens. A ByteDance, como a empresa global com a maior demanda por capacidade de algoritmos de recomendação, embora tenha entrado mais tarde no mercado, está ativamente colaborando com gigantes de design e fabricação de chips como TSMC e Broadcom para desenvolver chips ASIC personalizados para atender ao alto consumo diário de inferência de seu grande modelo Doubao e do TikTok/Douyin.

Tabela 1: Visão geral do posicionamento de chips de IA das principais gigantes tecnológicas globais

Análise aprofundada: Por que grandes empresas precisam investir pesadamente em chips de IA próprios?

Desenvolver um chip de IA com processo avançado (como 5nm/3nm) envolve custos de produção de dezenas de milhões de dólares e exige manter uma grande equipe de design de chip e validação de software. Diante desse alto limiar, as grandes empresas de tecnologia continuam a entrar nesse campo, e o «ME News Think Tank» acredita que isso é determinado por uma lógica comercial clara, negociações na cadeia de suprimentos e leis tecnológicas fundamentais.

Custo elevado de hash rate e insustentabilidade do modelo de negócios

O modelo de negócios da IA generativa atual enfrenta um sério risco de inversão. Treinar um modelo de grande porte no nível do GPT-4 com trilhões de parâmetros exige dezenas de milhares de GPUs H100 operando por meses, com despesas de capital (CapEx) em hardware superiores a centenas de milhões de dólares. Após a implantação do modelo, os custos contínuos de inferência são ainda mais ilimitados.

A razão pela qual a NVIDIA possui uma capitalização de mercado superior a um trilhão de dólares é, em essência, cobrar um alto “imposto de computação” sobre toda a indústria de IA. GPUs gerais precisam equilibrar funções como renderização gráfica (Graphics), operações de ponto flutuante de dupla precisão (FP64) e outras, que ocupam uma grande área de transistores no chip, mas são inúteis em aprendizado profundo puro (que depende principalmente de FP16, FP8 e até INT8). As grandes empresas que compram GPUs estão, na realidade, pagando por esses “silícios escuros (Dark Silicon)” não utilizados.

Ao desenvolver próprios chips ASIC personalizados, grandes empresas podem eliminar todas as funções redundantes, dedicando cada centímetro quadrado de silício à otimização de cálculos tensoriais e largura de banda de memória. Segundo avaliações da indústria, em cenários específicos de inferência em grande escala, o custo por cálculo (TCO) dos chips ASIC personalizados é apenas de 1/3 a 1/5 do custo dos GPUs genéricos. Para empresas como Meta e ByteDance, que precisam realizar centenas de bilhões de chamadas de inferência por dia, uma vez que os chips próprios forem implantados em escala, as economias anuais em despesas operacionais (OpEx) serão da ordem de bilhões de dólares. Investir alguns centos de milhões de dólares no desenvolvimento de chips para obter economias de custo de dezenas de bilhões de dólares é um cálculo econômico extremamente seguro.

Hedge against supply chain security and geopolitical risks

Além do custo, a vulnerabilidade da cadeia de suprimentos é a espada de Dâmocles pairando sobre as grandes empresas de tecnologia. A NVIDIA possui autoridade absoluta na alocação de capacidade, e os ciclos de entrega para GPUs essenciais como H100/B200 frequentemente duram meses. Sem capacidade de processamento, o avanço dos negócios de IA das grandes empresas para.

Desenvolver chips próprios é, em essência, aumentar o “poder de negociação” frente à NVIDIA. Mesmo que grandes empresas não consigam se livrar totalmente da NVIDIA no treinamento de modelos mais avançados, o uso de chips próprios na inferência e em sistemas de recomendação reduz significativamente a dependência absoluta de GPUs genéricas externas, proporcionando mais vantagens nas negociações de compra.

Para empresas chinesas, o desenvolvimento próprio de chips é uma escolha inevitável. Devido às regras de controle de exportação do BIS do Departamento de Comércio dos EUA, as empresas domésticas não conseguem obter chips comerciais com a maior densidade de computação e largura de banda de interconexão. Construir uma base de computação autônoma e controlável por meio do desenvolvimento próprio e da integração com sistemas domésticos ou não americanos de fabricação de semicondutores é a única saída para garantir a soberania nacional em IA e a continuidade dos negócios de data centers das empresas.

Otimização conjunta de hardware e software e barreiras competitivas diferenciadas

Hoje, com a lei de Moore gradualmente desacelerando, o ganho de desempenho proveniente apenas do avanço da tecnologia de fabricação de chips (como de 5nm para 3nm e depois para 2nm) está apresentando efeitos marginais decrescentes. As próximas rupturas em poder de computação dependerão cada vez mais de “hardware definido por software” e “projeto conjunto de software e hardware (Hardware-Software Co-design)”.

Os GPUs genéricos devem ser compatíveis com milhares de aplicativos e algoritmos diferentes, portanto sua arquitetura deve ser neutra. Já os chips desenvolvidos internamente por grandes empresas podem ser otimizados especificamente de acordo com os tipos de dados, características de esparsidade e padrões de comunicação dos seus modelos principais.

Por exemplo, se o foco principal de uma grande empresa for a inferência de modelos de linguagem de longo contexto, seus chips proprietários podem ser projetados para maximizar drasticamente a capacidade de SRAM no chip ou a largura de banda da memória HBM, em vez de perseguir cegamente o pico de desempenho (FLOPS). Essa capacidade de “gravar” seus próprios algoritmos de IA diretamente no silício subjacente permite criar uma experiência de desempenho que concorrentes não conseguem replicar facilmente, construindo assim uma vantagem competitiva profunda.

Desafios práticos e soluções para os chips AI desenvolvidos internamente

Embora o valor estratégico dos chips AI desenvolvidos internamente seja evidente, esta não é certamente uma estrada fácil. Fabricar chips cegamente pode não apenas levar a grandes quantias de dinheiro perdidas, mas também retardar a velocidade de iteração dos próprios negócios de IA.

Transcending ecosystem barriers: How deep is CUDA's moat?

A barreira mais impressionante da NVIDIA não é o desempenho de hardware, mas seu ecossistema de software CUDA, desenvolvido por quase duas décadas. Atualmente, a grande maioria dos desenvolvedores de IA no mundo e as principais bibliotecas de algoritmos de IA (como os operadores subjacentes do PyTorch) estão profundamente integradas ao CUDA.

O maior desafio enfrentado pelos grandes fabricantes ao desenvolver seus próprios chips é “fácil de fabricar, difícil de usar”. Mesmo com o sucesso na produção, se os desenvolvedores precisarem gastar meses reescrevendo o código de baixo nível para adaptar-se ao compilador do novo chip, esse chip não poderá ser amplamente adotado internamente.

Para quebrar o impasse, a indústria está lançando uma envoltória contra o CUDA. Por um lado, grandes empresas estão desenvolvendo ativamente seus próprios compiladores (como o XLA do Google); por outro, a linguagem de programação de código aberto Triton, lançada pela OpenAI, é vista com grandes expectativas. O Triton visa fornecer uma linguagem com um nível de abstração superior ao CUDA, permitindo que os desenvolvedores escrevam o código apenas uma vez, enquanto o compilador Triton o converte em código de máquina adaptado a diferentes hardware subjacentes (como GPUs da Nvidia, GPUs da AMD e até ASICs de diversos fabricantes). Assim que o Triton ou um ecossistema intermediário semelhante amadurecer, o vínculo do CUDA será significativamente enfraquecido, e o custo de migração para chips desenvolvidos internamente pelas grandes empresas será drasticamente reduzido.

Conflito entre custos massivos de P&D e efeitos de escala

O setor de chips é um mercado de vencedor leva tudo, extremamente focado em "efeito de escala". A NVIDIA pode distribuir seus altos custos de pesquisa e desenvolvimento por milhões de unidades de GPU vendidas globalmente. Já os chips desenvolvidos internamente por grandes empresas geralmente são usados apenas internamente ou por seus próprios clientes de nuvem, com volumes de venda de apenas dez mil ou dezenas de milhares de unidades.

Se não for possível alcançar escala suficiente, o custo amortizado por chip desenvolvido internamente será muito superior ao de comprar GPUs genéricas diretamente. Portanto, o desenvolvimento próprio de chips de IA está fadado a ser apenas um “jogo de corajosos acessível apenas a poucos gigantes”. Para empresas de tecnologia de médio e longo prazo, tentar desenvolver chips de IA de baixo nível não é apenas insustentável financeiramente, mas também impossível acompanhar o ritmo de inovação de fabricantes especializados como a NVIDIA; a escolha mais sábia é adotar serviços de nuvem de computação prontos.

Tabela 2: Comparação das vantagens e desvantagens entre GPUs comerciais genéricas e chips ASIC desenvolvidos internamente por grandes empresas

Análise: A evolução final do cenário de poder de computação

Com base na análise acima, o «ME News Think Tank» faz as seguintes previsões sobre o cenário global de capacidade de IA nos próximos 3 a 5 anos:

Da era de “um único líder, muitos fortes” para a “segmentação vertical”: GPU domina o treinamento, ASIC ocupa a inferência

NVIDIA permanecerá, por um longo período futuro, como o rei insubstituível na exploração dos limites dos modelos de IA de ponta (Frontier Models), pois, em treinamentos de parâmetros extremamente complexos e em escala massiva, os algoritmos ainda apresentam alta incerteza — uma fase que exige extremamente a versatilidade da GPU e a flexibilidade e correção de erros do ecossistema CUDA.

No entanto, na fase de inferência, após o modelo amadurecer, e na implantação diária em aplicações de grande escala da internet (como recomendação de vídeos curtos ou reescrita de mecanismos de busca), o alto custo dos GPU genéricos forçará as empresas a migrar totalmente para ASICs personalizados de desenvolvimento próprio. Os data centers do futuro serão híbridos: poucos clusters de GPU extremamente caros serão usados para “fazer feitiçaria” (treinar os próximos modelos de grande porte), enquanto inúmeros clusters de ASICs personalizados assumirão bilhões de chamadas diárias dos usuários finais.

Silício personalizado torna-se padrão nos serviços em nuvem

Assim como os grandes centros de dados de hoje projetam seus próprios motherboards e sistemas de refrigeração, personalizar até o nível mais profundo dos chips se tornará padrão para os principais provedores de nuvem (CSPs). A capacidade de desenvolver chips próprios se tornará a competência central que os provedores de nuvem usarão para vender serviços de IA aos clientes. Provedores de nuvem sem capacidade de desenvolver hardware de baixo nível perderão completamente seu espaço de margem em futuras guerras de preços, tornando-se meros “sublocatários de data centers”.

Em resumo, os grandes fabricantes desenvolvendo seus próprios chips de IA não visam eliminar completamente a NVIDIA, mas sim travar uma batalha pelo controle da distribuição de lucros na era da IA. Ao alcançar independência de computação no lado da inferência e em seus negócios internos essenciais, as gigantes de tecnologia estão recuperando o controle sobre os pilares tecnológicos e os lucros comerciais. Nesta profunda transformação de software e hardware integrados, a computação já não é mais apenas um produto comprável, mas sim o ativo estratégico mais central para as empresas.

Fonte:

Semianalysis. (2024). AI Inference Economics: GPUs vs Custom Silicon.
Stanford University HAI. (2024). Artificial Intelligence Index Report 2024.
Bloomberg Technology. (2023). Microsoft vai lançar chip de IA para reduzir a dependência da Nvidia.
Patterson, D., et al. (2021). Emisões de Carbono e Treinamento de Redes Neurais de Grande Porte. arXiv preprint.
AWS Official Blog. (2023). Amazon EC2 Inf2 Instances para IA Generativa de Baixo Custo e Alto Desempenho.