Autor: Ada, Deep潮 TechFlow
San Francisco, Centro de Convenções de San Jose, ao vivo no GTC.
O cientista-chefe da NVIDIA, Bill Dally, sentado no palco, enfrenta Jeff Dean do Google. Enquanto conversavam, Dally lançou um número: “Anteriormente, a portabilidade de uma biblioteca de células padrão contendo cerca de 2.500 a 3.000 células exigia uma equipe de oito engenheiros trabalhando por cerca de 10 meses.”
Ele pausou por um momento.
Agora basta uma única GPU rodando durante uma noite.
Nenhuma exclamação foi ouvida na plateia, pois todos que entenderam a frase sabiam o que isso significava. O trabalho de oito engenheiros durante dez meses foi apagado em uma noite por uma GPU desenvolvida internamente. E Dally acrescentou: os resultados obtidos atendem ou superam o design humano nos três indicadores de área, consumo de energia e latência.
No dia seguinte, a notícia foi interpretada como "NVIDIA usa IA para projetar GPUs".
Mas a verdade por trás disso é muito mais interessante do que os títulos das notícias sugerem.
O que está sendo executado internamente na NVIDIA?
O que roda internamente na NVIDIA não é uma caixa preta, mas sim várias cadeias de ferramentas aprimoradas ao longo de anos.
NB-Cell é um programa baseado em aprendizado por reforço projetado para realizar a tarefa mais árdua da migração de bibliotecas de células padrão. O Prefix RL visa resolver o problema de longa data de posicionar as etapas de visualização na cadeia de antecipação de carry. Dally afirmou que os layouts gerados pelo sistema são “algo que os humanos nunca pensariam”, com métricas-chave melhoradas em cerca de 20% a 30% em comparação com designs humanos.
Além disso, há dois LLM internos, Chip Nemo e Bug Nemo. A NVIDIA alimentou esses dois grandes modelos com o código RTL, documentação de arquitetura e especificações de design de cada GPU já produzida na história. Segundo a descrição de Dally, isso equivale a condensar vinte anos de memória muscular da NVIDIA, desde o G80 até o Blackwell, em um modelo interno, permitindo que novos funcionários se conectem diretamente à experiência de um engenheiro sênior com duas décadas de conhecimento.
Então, “a IA pode projetar GPUs”?
Quite the opposite. Dally's exact words were: "I would love to one day be able to say directly, 'Design me a new GPU,' but we are still far from that step."
NVIDIA não usou IA para projetar sua GPU. Mas outra coisa que ela fez tornará a indústria inteira incapaz de funcionar sem ela no futuro.
US$2 bilhões em compras de EDA hinterland
Em 1º de dezembro de 2025, NVIDIA investiu US$ 2 bilhões na Synopsys, uma das três principais empresas de EDA. As duas partes assinaram um acordo de desenvolvimento conjunto para integrar a pilha de computação acelerada da NVIDIA em todo o fluxo de trabalho EDA da Synopsys, com o Blackwell e o próximo GPU Rubin sendo profundamente integrados ao Synopsys.ai.
A posição da Synopsys precisa ser explicada. Quase todos os chips de processos avançados globais — como a série Apple M, a série AMD MI e o TPU do Google — passam pela sua cadeia de ferramentas ou pela da Cadence durante a fase de design. Juntamente com a Siemens EDA, essas três empresas monopolizam as ferramentas fundamentais do design de chips. Você pode não usar chips da Qualcomm ou linhas de produção da TSMC, mas não consegue escapar dos softwares dessas três empresas.
Três meses após investir na Synopsys, a NVIDIA trouxe a Cadence, a Siemens e a Dassault, anunciando que todas estão desenvolvendo ferramentas de design de chips impulsionadas por IA com base nas GPUs da NVIDIA.
Os dados de benchmark divulgados pela NVIDIA são bastante impressionantes: o Synopsys PrimeSim é 30 vezes mais rápido no Blackwell, o Proteus é 20 vezes mais rápido, e o Sentaurus é 12 vezes mais rápido no B200 em comparação com aceleração por CPU. A MediaTek acelerou o Cadence Spectre em 6 vezes usando o H100. A Astera Labs acelerou a verificação de chips em 3,5 vezes com Synopsys + NVIDIA.
Há um detalhe que merece ser destacado separadamente: a plataforma Millennium M2000 da Cadence é anunciada como "desenvolvida exclusivamente para o mercado EDA, baseada unicamente no NVIDIA Blackwell".
As duas palavras exclusivas são as mais valiosas. Ou seja, anteriormente, as ferramentas EDA rodavam em CPUs, e tanto Intel quanto AMD podiam participar. A partir de agora, para usar as ferramentas EDA mais rápidas, só é possível comprar placas da NVIDIA.
The true shape of the flywheel
A roda de inércia da NVIDIA, na versão compreendida pela maioria, é assim: vender GPUs para empresas de IA, as empresas de IA treinam modelos grandes, os modelos grandes provam que as GPUs são insubstituíveis, e mais pessoas compram GPUs.
Esta roda já é assustadora o suficiente. Mas abaixo dela há mais uma camada.
A NVIDIA projeta sua próxima geração de GPUs com suas próprias ferramentas, criando uma diferença geracional na eficiência de design e vinculando toda a cadeia de ferramentas EDA da indústria ao seu próprio hardware. Os concorrentes querem acompanhar, mas nem mesmo as ferramentas para isso podem ser obtidas fora do ecossistema da NVIDIA.
A ansiedade por trás do relatório financeiro da AMD que provocou uma queda acentuada no preço das ações é exatamente essa. Mesmo que NVIDIA e Synopsys afirmem superficialmente que “o investimento não implica qualquer obrigação de compra de hardware da NVIDIA”, o mercado sabe perfeitamente: as funcionalidades EDA aceleradas estreiam primeiro no hardware da NVIDIA, e a AMD e a Intel só podem depender de um caminho “otimizado para a plataforma do maior concorrente”.
Imagine que um engenheiro da AMD venha a querer projetar um chip para competir com o Blackwell. Ele abre a ferramenta da Synopsys, que roda mais rápido em GPUs da NVIDIA. Então, ele terá que escolher entre suportar um ciclo de design duas vezes mais lento ou comprar um monte de placas da NVIDIA para projetar um chip destinado a superar a NVIDIA.
As pás ainda estão sendo vendidas. Mas a forma de venda mudou.
A situação real das GPUs nacionais
Até aqui, é necessário apresentar um conjunto de números que despertam a atenção.
No mesmo ano em que a NVIDIA superou os US$ 70 bilhões em lucro líquido no exercício fiscal de 2025, as quatro “pequenas gigantes” locais de GPU — MoEr Line, Muxi, BiRen e SuiYuan — aguardam na fila diante da janela de IPO.
O prospecto da Moore Threads mostra que, de 2022 a 2024, a empresa acumulou prejuízos líquidos de 5 bilhões de yuans em três anos, e mais 271 milhões de yuans no primeiro semestre de 2025, resultando em prejuízos acumulados não compensados de 1,478 bilhão de yuans até 30 de junho. A gestão da empresa prevê que, no melhor cenário, só alcançará lucro consolidado em 2027. Muxi está em uma situação um pouco melhor, com prejuízos acumulados de mais de 3 bilhões de yuans em três anos. O pior caso é Biren, que sofreu prejuízos de mais de 6,3 bilhões de yuans em três anos e meio, com receita de apenas 58,9 milhões de yuans no primeiro semestre de 2025 — menos da metade do valor arrecadado pela Moore Threads no mesmo período, que foi de 702 milhões de yuans.
Veja a intensidade do investimento em P&D. Em 2022, as despesas de P&D da Moore Threads representaram 2422,51% da receita; em 2024, ainda atingiram 309,88%. Em um ano, o valor gasto em P&D foi mais de três vezes a receita. Isso não é gestão empresarial — é uma transfusão para manter a vida, sustentada por financiamentos do mercado primário e pela recente abertura da janela do mercado STAR.
A camada de ferramentas é ainda mais crítica. O prospecto de IPO da Huada Jiutian em 2022 mostra que suas ferramentas apenas parcialmente suportam o processo avançado de 5nm. A Primarius Electronics cobre os nós de 7nm/5nm/3nm, mas oferece apenas ferramentas pontuais, longe de ser um fluxo completo.
Liu Weiping, fundador da Huada Jiutian, foi muito sincero: “O EDA nacional ainda apresenta deficiências significativas no suporte a processos avançados, especialmente os atuais 7nm, 5nm e 3nm. Atualmente, o EDA nacional pode alcançar o nível de 14nm; embora a tecnologia de processo de 7nm já tenha sido dominada, a integração profunda do 7nm com aplicações práticas ainda exige esforços coordenados de toda a cadeia industrial.”
Ou seja, a integração completa de ferramentas EDA para processos avançados é basicamente inutilizável no país. As empresas chinesas de GPU ainda utilizam Synopsys e Cadence para projetar seus chips. Em 2025, Trump anunciou temporariamente restrições de exportação para todos os softwares críticos; embora não tenham sido implementadas de forma concreta, as ferramentas EDA para processos avançados abaixo de 7nm permanecem sob rigorosa controle. Quando a licença será cortada depende de outros.
A reação do mercado de capitais foi suficientemente mágica. No dia da estreia da Muxi, a ação fechou em 829,9 yuan, com alta de 692,95% em um único dia. Após sua listagem, a ação da Moore Threads chegou a se tornar a terceira mais valiosa da bolsa A, atrás apenas da Kweichow Moutai e da Cambricon, e alguns meios de comunicação calcularam, com base nos preços da época, que seu valor de mercado total era de aproximadamente 359,5 bilhões de yuans.
O negócio real por trás dos números é que um grupo de empresas que ainda estão gastando dinheiro e operando com prejuízos, e que ainda dependem de cadeias de ferramentas estrangeiras regulamentadas para continuar projetando chips, estão sendo avaliadas no mercado secundário como sucessoras da NVIDIA nacional.
E as ferramentas que essas empresas usam para projetar chips estão se tornando parte do ecossistema da NVIDIA. O vínculo de US$ 2 bilhões entre a NVIDIA e a Synopsys, e o rótulo “exclusivamente baseado no NVIDIA Blackwell” do Cadence Millennium M2000 transformam o próprio esforço de alcançar em um paradoxo.
Uma cadeia completa do design à fabricação
Voltar à conversa sobre GTC.
Dally demonstrou grande humildade durante toda a apresentação. “A IA ainda está longe de projetar chips sozinha” — isso a NVIDIA já vem dizendo há quatro ou cinco anos. Mas a forma de dizer muda todos os anos. Há quatro anos, era “a IA pode auxiliar no projeto”; há três anos, “a IA pode automatizar certas etapas”; este ano, “faz o trabalho de oito pessoas em dez meses em uma única noite”. A cada ano, dá um passo adiante e sempre deixa uma frase: “Ainda estamos muito longe do objetivo final”. Três anos depois, olhando para trás, o “muito longe” da rodada anterior já foi alcançado, e um novo “muito longe” foi definido em uma posição que todos os concorrentes ainda não conseguem alcançar.
O que a NVIDIA fez nos últimos doze meses, na verdade, foi apenas uma coisa: aplicar a IA nos poucos segmentos da cadeia de chips mais valiosos e com as barreiras de entrada mais altas, e depois vender essas ferramentas camada por camada para toda a indústria.
A parte frontal do design de chips foi assumida pelo LLM interno Chip Nemo; a migração da biblioteca de células padrão e a otimização de layout na fase intermediária foram assumidas por NB-Cell e Prefix RL; toda a cadeia de ferramentas EDA está vinculada aos próprios GPUs da Synopsys por meio de US$ 2 bilhões e da Cadence com “exclusividade baseada em Blackwell”; o cálculo de litografia na etapa de fabricação foi assumido pelo cuLitho, que já está em uso pela TSMC.
Da concepção à fabricação, a NVIDIA refez cada etapa com IA. Cada etapa leva ao mesmo destino: se você quer a ferramenta mais rápida, precisa comprar uma placa da NVIDIA.
O que era mais embaraçoso já aconteceu para todos os concorrentes que querem criar um chip capaz de superar o Blackwell. A versão mais rápida das ferramentas EDA necessárias para projetar esse chip roda nos GPUs da NVIDIA; a biblioteca de algoritmos mais rápida para os cálculos de litografia necessários para fabricar esse chip é fornecida pela NVIDIA; e a capacidade de computação usada para treinar a IA de design também é baseada em placas da NVIDIA.
A pessoa que você precisa derrotar está alugando a você todas as ferramentas necessárias para derrotá-la. O aluguel é pago anualmente e o contrato aumenta todos os anos.
