Gargalos na cadeia de suprimentos de computação de IA mudam da GPU para energia e refrigeração

Autor: qinbafrank

Em fevereiro, em “O que significa esta guerra de gastos de capital?”, discutimos que os elos críticos da cadeia de produção de potência de hash ainda conseguem capturar o maior valor: chips, encapsulamento e teste, armazenamento, módulos ópticos, etc.; aqueles com capacidade difícil de expandir rapidamente e aqueles com altas barreiras de entrada desfrutarão dos benefícios dos grandes gastos de capital;

Ainda há grande espaço para otimização de eficiência: técnicas como distilação, quantização, MoE, chips dedicados, refrigeração líquida e fusão nuclear (a longo prazo) no lado de inferência podem reduzir o consumo de energia e o custo por unidade de poder de cálculo em 10 a 100 vezes. É preciso buscar oportunidades nesses pontos.

Recent reports from major investment banks including Morgan Stanley, JPMorgan Chase, Bank of America, Goldman Sachs, UBS, Citigroup, Bernstein, and HSBC have released updates on AI/semiconductors/power/storage. The bottleneck in AI hardware has expanded from a single dimension of "GPU supply" to a collective strain across five dimensions: power, chips, storage, equipment, and materials.

A demanda por IA já ultrapassou todos os intervalos de previsão de planejamento de energia tradicional, capacidade de equipamentos semicondutores, modelos de preços de armazenamento e suposições de instalação de robôs.

O relatório de revisão de temas globais do Morgan Stanley aponta que o consumo semanal global de tokens de modelos de linguagem de grande porte aumentou de 6,4 trilhões para 22,7 trilhões em três meses, uma alta de 2,5 vezes; a lacuna de energia para data centers nos EUA entre 2025 e 2028 é de 55 GW. O JPMorgan, em sua primeira cobertura de títulos para projetos de computação de alto desempenho em data centers, estimou diretamente uma lacuna de financiamento de 122 GW nos próximos cinco anos; o planejamento energético dos EUA para cinco anos saltou de 101 GW para 230 GW, com 44% dos novos projetos aguardando mais de quatro anos para conexão à rede. No relatório mais recente do Bank of America com preço-alvo para a Alphabet, as despesas de capital para 2026 foram revisadas para US$ 181,5 bilhões, dobrando em relação ao ano anterior, enquanto o fluxo de caixa livre caiu 62% em termos anuais. Esses três conjuntos de dados não são saídas de um mesmo quadro, mas sim retratos independentes produzidos por três instituições distintas em caminhos de pesquisa diferentes.

A evolução dos gargalos na cadeia de semicondutores (especialmente no campo de capacidade de computação para IA) segue exatamente a sequência clara: “computação (GPU) → armazenamento (HBM, etc.) → interconexão óptica → energia/refrigeração líquida”. Essa é a consenso da indústria para 2025-2026. À medida que os clusters de treinamento/inferência de IA se expandem de um único gabinete (dezenas de GPUs) para escala ultramassiva (milhares a centenas de milhares de GPUs), a resolução de cada gargalo imediatamente expõe o próximo limite físico ou da cadeia de suprimentos, formando restrições complementares do tipo “Leontief” (falta de um único componente impede a entrega).

Módulo óptico

É importante entender por que essa evolução ocorreu, o estado atual e as razões físicas/engenharia por trás dela:

1. Gargalo da fase um: computação GPU (dominante em 2022-2024) Limitação principal:

Capacidade de wafer de GPUs de alto desempenho (como NVIDIA Hopper H100 → Blackwell B200 → Rubin) + embalagem avançada.

Por que é um gargalo: Modelos de IA de grande porte exigem cálculos paralelos em grande escala; a capacidade de produção da tecnologia lógica TSMC 4nm/3nm/2nm + CoWoS (empacotamento 2.5D/3D) tornou-se o maior ponto de estrangulamento. Mesmo que haja suficiente wafer frontal, a capacidade de empilhar e empacotar os chips lógicos com HBM na etapa posterior não consegue acompanhar, impedindo a produção completa da GPU.

Alívio da situação: A TSMC está expandindo fortemente o CoWoS (capacidade dobrada em 2024-2025), e o NVIDIA Blackwell já está sendo entregue em grande escala. Mas isso apenas libera a etapa de "computação", imediatamente revelando novos problemas.

2. Gargalo da segunda fase: armazenamento (HBM – memória de alta largura de banda, tornando-se o mais escasso em 2024-2025)

Restrição principal: capacidade de HBM3/HBM3e/HBM4.

Por que o acesso à memória se tornou um gargalo: a capacidade de processamento da GPU aumentou, mas os parâmetros do modelo cresceram exponencialmente (trilhões ou até dez trilhões de parâmetros), tornando a transferência de dados (largura de banda de memória) a “parede da memória”. O HBM pode transmitir vários TB por segundo, sendo mais de 20 vezes mais rápido que a memória DDR convencional. Como o HBM está próximo ao chip lógico, os dados não precisam ser transportados por grandes distâncias, economizando energia.

Um GPU B200 requer 192 GB+ de HBM3e; o total de HBM por gabinete (NVL72) já atinge 30-40 TB, com demanda de largura de banda muito superior à da DRAM tradicional.

Situação atual da cadeia de suprimentos: Apenas SK Hynix, Samsung e Micron conseguem produzir HBM em escala; o processo é complexo (TSV + empilhamento). Todos os HBM de 2025 já foram vendidos, e a demanda ainda supera a oferta em 2026, com preço aumentando 246% em relação ao ano anterior. Mesmo com os chips GPU prontos, sem HBM não é possível montar e entregar, causando atrasos em toda a implantação de clusters de IA.

Resultado: O armazenamento passou de um “produto” para um ponto crítico estratégico, podendo representar até 30% dos gastos com capital.

3. Gargalo da terceira fase: interconexão óptica (em transição em 2025-2026)

Limite fundamental: Cabos de cobre (NVLink/NVSwitch) possuem limites físicos em largura de banda, distância, consumo de energia e peso.

Por que a transição para a luz é inevitável: em um único gabinete (72 GPUs), cabos de cobre ainda são viáveis, mas ao expandir para múltiplos gabinetes e interconectar milhares de GPUs, os cabos de cobre apresentam atenuação severa (distância efetiva <1 metro sob 1,8 TB/s de largura de banda), peso excessivo (mais de 5.000 cabos de cobre no gabinete NVL72, totalizando 1,36 toneladas) e alto consumo de energia (a substituição dos cabos de cobre por módulos ópticos removíveis consome adicionalmente 20 kW). A integridade do sinal, a latência e a dissipação de calor não conseguem sustentar clusters maiores.

Solução: migrar para interconexões ópticas (CPO – Optoeletrônica Co-empacotada + tecnologia de fotônica em silício). Empacote diretamente o motor óptico ao lado do GPU/ASIC, usando fibras ópticas para Scale-Out, com maior densidade de largura de banda, menor consumo de energia por bit e maior distância.

Módulo óptico

A NVIDIA está apostando fortemente no GTC de 2026, tendo investido em empresas ópticas, com demanda explosiva por módulos ópticos de 800G/1.6T. Lite, Broadcom, Coherent, Ayar Labs e outras se tornaram novos vencedores.

Progresso atual: os cabos de cobre atingiram seu limite; a interconexão óptica está passando de "opcional" para "essencial", superando o teto de desempenho dos data centers de IA.

4. Gargalo da quarta fase (fronteira atual): Eletricidade + refrigeração líquida (a partir de 2026, tornar-se-ão os limites físicos finais). Restrição central: parede de consumo de energia + parede de dissipação de calor + acesso à rede elétrica.

Por que é o gargalo definitivo: cada GPU passou de 300W para 700-1200W, e cada gabinete passou de 10-20kW (era CPU) para 120-200kW+ ou mais. O limite físico do resfriamento por ar tradicional é apenas de 20-50kW, com ruído, fluxo de ar e consumo de energia inaceitáveis.

Lado da energia: os centros de dados exigem fornecimento de energia na ordem de GW; a fila para conexão à rede elétrica pode durar anos; o ciclo de entrega de equipamentos como transformadores e transformadores de estado sólido foi estendido para 100 semanas. O CEO da Microsoft já afirmou diretamente: “Tenho GPUs, mas não tenho onde conectar”.

Lado de refrigeração líquida: deve-se alternar para refrigeração líquida direta ao chip (Direct-to-Chip) ou refrigeração por imersão, combinando tecnologias como microfluídica e placas frias. A TSMC já demonstrou refrigeração líquida baseada em silício na plataforma CoWoS, com suporte a TDP > 2,6 kW. Fabricantes de refrigeração líquida e gerenciamento térmico, como a Vertiv (VRT), tornam-se o novo núcleo da infraestrutura.

Efeito dominó: os requisitos de PUE (eficiência de utilização de energia) são inferiores a 1,2, e a recuperação de calor residual, bem como a integração de energia nuclear/energias novas, tornam-se novos temas. Mesmo que todos os estágios anteriores sejam resolvidos, sem energia e refrigeração, os gabinetes não podem ser instalados e operados.

Módulo óptico

A lógica fundamental por trás da transferência de gargalos na cadeia de produção de poder de computação para IA: o poder de computação para IA não é um problema "pontual", mas sim uma função de produção de Leontief sistêmica — GPU, HBM, interconexão, energia e refrigeração devem ser ajustadas conforme o componente mais fraco. Cada vez que um hyperscaler (Google, Microsoft, Meta, etc.) resolve um gargalo, imediatamente direciona capital e inovação para o próximo estágio.

Atualmente (em 2026), estamos na transição entre a aceleração da implementação de interconexões ópticas e a comercialização em larga escala de energia/refrigeração líquida. Futuramente, novos gargalos podem surgir (como lasers, materiais de fibra óptica ou transformadores da rede elétrica), mas a cadeia “computação → armazenamento → óptica → elétrica/refrigeração” já é reconhecida como o caminho padrão da indústria.

Isso também explica por que o raciocínio de investimento mudou da NVIDIA/TSMC para os três grandes da HBM (SK Hynix, etc.), fabricantes de componentes ópticos (Lumentum, Coherent) e infraestrutura de refrigeração líquida/energia (Vertiv, empresas relacionadas de energia).

Cada transferência de gargalo está reconfigurando a distribuição de valor em toda a cadeia de valor dos semicondutores e data centers.