Inovações em modelos de IA impulsionam novas oportunidades na infraestrutura de IA

Artigo | Alpha公社

Nos últimos tempos, o campo de comunicação de redes de IA está se tornando cada vez mais popular.

Por um lado, as startups de comunicação de rede de IA da Vale do Silício têm recebido frequentemente grandes financiamentos; por outro lado, as ações de empresas de comunicação de rede de IA no mercado secundário, especialmente as de comunicação óptica, também têm aumentado rapidamente.

Por que a popularidade das redes de comunicação de IA está aumentando? A essência é a demanda impulsionando: os modelos estão ficando cada vez maiores, o consumo de tokens está aumentando e há escassez de capacidade de processamento. Para extrair mais poder de computação a um custo mais baixo da infraestrutura de processamento, é necessário buscar soluções nas tecnologias subjacentes.

Acelerar a comunicação entre chips, acelerar a comunicação entre nós e aumentar a eficiência de toda a infraestrutura de computação é um caminho que está sendo verificado.

Uma empresa chamada Upscale AI recentemente realizou uma forte captação de recursos. Em setembro de 2025, recebeu um investimento semente de US$ 100 milhões, liderado conjuntamente pela Mayfield e pela Maverick Silicon, com participação da StepStone Group, Celesta Capital, Xora, Qualcomm Ventures, Cota Capital, MVP Ventures e da Universidade de Stanford.

Em janeiro de 2026, obteve mais um financiamento da série A de US$ 200 milhões, liderado pelo Tiger Global, Premji Invest e Xora Innovation, com participação da Maverick Silicon, StepStone Group, Mayfield, Prosperity7 Ventures, Intel Capital e Qualcomm Ventures.

Recent reports indicate that it is negotiating a new funding round of $180 million to $200 million.

Grandes parâmetros, MoE, longo contexto, inovação de modelos impulsionando a inovação da rede de computação de IA

Uma empresa criada há menos de um ano, por que conseguiu sucessivas rodadas de financiamento em grande escala? Isso está fortemente relacionado à sua equipe fundadora. Na verdade, a Upscale AI foi incubada pela Auradine, que é uma empresa emergente de infraestrutura de IA e que agora se chama Velaura AI, dedicando-se a fornecer soluções computacionais inovadoras e com consumo ultrabaixo de energia, validadas para aplicações de IA em nuvem, borda e físicas.

Barun Kar e Rajiv K, imagem cortesia de Upscale AI

Barun Kar, cofundador e CEO da Upscale AI, era anteriormente o COO da Auradine, enquanto Rajiv K, cofundador e presidente executivo, era anteriormente o CEO da Auradine e agora também é o CEO da Velaura AI. Puneet Agarwal, CTO da Upscale AI, trabalhou por dez anos na Broadcom e foi CTO do departamento de data centers da Marvell.

Barun Kar e Rajiv K também tiveram experiências em grandes empresas antes de sua anterior empreitada, podendo-se dizer que se trata de uma equipe com anos de experiência e amplo conhecimento no setor.

Comunicação de rede de IA, por que é importante? Isso precisa ser explicado desde a base tecnológica.

As cargas de trabalho de IA são caracterizadas por alta sincronização. Cargas modernas, como treinamento de modelos em grande escala, arquiteturas MoE e inferência distribuída, impõem pressão de sincronização extremamente alta na rede.

Durante o treinamento, os gradientes dos parâmetros do modelo precisam ser transmitidos entre milhares de GPUs em ondas altamente sincronizadas; o cálculo de inferência gera tráfego de grande escala com exigências extremamente rigorosas quanto à latência.

Quando a rede não consegue acompanhar, a GPU para e aguarda, causando um aumento contínuo da latência e a colapso da eficiência do cluster de computação.

Isso é um desalinhamento de arquitetura, não algo que pode ser resolvido por otimização.

As redes tradicionais, que buscam universalidade, enfrentam agora a complexidade introduzida pela compatibilidade com várias cargas, que se tornou um obstáculo nos cenários de IA. A comunicação determinística e a forte sincronização exigida pela comunicação em conjunto de GPUs estão ultrapassando os limites de design das redes tradicionais.

A rede necessária para o cluster de poder de computação AI deve ser capaz de suportar comunicação determinística, sincronizada e de alta taxa de transferência em escala massiva.

A rede AI precisa ser reconstruída desde a base, projetada em torno das necessidades reais de conexão Scale-Up e Scale-Out.

Ainda mais detalhado, isso se reduz ao modelo.

Atualmente, duas características do modelo colocam uma pressão especial sobre a rede de clusters de capacidade de IA: um é o aumento exponencial na escala de parâmetros do modelo, e o outro é a evolução contínua de contextos longos e Cot.

Tomando como exemplo o recém-lançado DeepSeek V4 Pro, seus parâmetros de tamanho atingem 1,6T, com contexto de até 1M. Um tamanho de 1,6T exige 1,6T de memória — a memória de um único chip certamente não é suficiente, exigindo que seja dividido para operar em muitos aceleradores, tornando a comunicação entre chips rapidamente um gargalo.

Uma janela de contexto muito longa fará com que o tamanho do cache KV aumente drasticamente, excedendo a capacidade de memória HBM de uma única GPU. Ambos os fatores exercem pressão dupla sobre a capacidade de memória e a largura de banda de comunicação.

Não é apenas uma inovação em nível de chip, mas uma reforma completa da pilha

Para treinar e realizar inferência fluida com modelos de grandes parâmetros e janelas de contexto longas, a verdadeira solução é redefinir o “limite de computação”, permitindo que mais GPUs sejam conectadas por redes ultra-rápidas, com latência na ordem de sub-microssegundos e alta capacidade de comunicação coletiva, de modo que possam ser vistas como um único “super-GPU”, surgindo assim a forma de rack.

Tomando como exemplo o NVL72 da NVIDIA, ele não trata mais as 72 GPUs como dispositivos independentes, mas sim como uma máquina coerente com semântica de memória, com largura de banda NVLink interna de 130 TB/s.

Aqui, são introduzidos dois níveis de interconexão da infraestrutura de IA: interconexão de GPU em rack (Scale-Up) e interconexão de rede em nível de cluster (Scale-Out).

Esses dois níveis devem operar em conjunto para permitir que dezenas de milhares de GPUs funcionem eficientemente como um único motor de computação distribuído.

Para os dois níveis de interconexão da infraestrutura de IA, a Upscale AI desenvolveu uma arquitetura de rede personalizada para IA. Para a interconexão de IA em nível de rack (Scale-Up), possui a arquitetura de chip SkyHammer; para a estrutura de rede de IA em nível de cluster (Scale-Out), possui o Open Ethernet.

SkyHammer é uma arquitetura de chip desenvolvida para superar os gargalos da rede Scale-Up AI, baseada em padrões abertos, com o objetivo de alcançar latência determinística, largura de banda extrema e desempenho previsível em escala ultramassiva, permitindo que GPUs e XPUs operem como um motor de computação altamente sincronizado.

One of its features is deterministic latency, representing the time required for data to travel between components within the rack, which can be highly predictably controlled.

Fonte da imagem: Upscale AI

SkyHammer é construído desde o nível ASIC, com design integrado em três níveis: chip, sistema e rack, garantindo que cada camada trabalhe em coordenação. Cada componente foi redesenhado: desde como os dados fluem dentro do chip, até como o fabric se adapta automaticamente sob carga, e como o supercluster mantém previsibilidade mesmo sob pressão de alta sincronização.

Ele suporta novos padrões como ESUN, UEC e UALink, e também reserva espaço para inovações futuras ainda não surgidas. Com sua arquitetura flexível, o SkyHammer pode se adaptar suavemente a novas definições de padrões sem reestruturação nem compromisso, garantindo interoperabilidade em um ambiente aberto e diversificado, ao mesmo tempo em que mantém seu desempenho.

Produtos baseados na arquitetura SkyHammer estão programados para lançamento em 2026.

Open Ethernet é principalmente voltado para arquiteturas de rede AI em nível de cluster (Scale-Out). Em nível de cluster, os sistemas AI precisam de abertura, interoperabilidade e largura de banda massiva.

Upscale AI desenvolveu uma estrutura de rede Open Ethernet otimizada para IA, que será construída com base nos chips de switch Ethernet NVIDIA Spectrum-X e no sistema operacional de rede SONiC, oferecendo suporte end-to-end.

Ao integrar a telemetria nativa ASIC, o comportamento determinístico e sem perdas da Ethernet, e os fluxos de trabalho de rede padronizados da indústria, o sistema oferece desempenho previsível, operação simplificada e alta confiabilidade em cenários em grande escala.

Em resumo, ele conecta milhares de GPUs como uma única rede de alto desempenho, suportando treinamento distribuído e inferência em grande escala.

Para este projeto, a Upscale AI juntou-se à NVIDIA Partner Network e está colaborando estreitamente com a NVIDIA e seus parceiros ecológicos, alinhando-se com arquiteturas de referência e designs validados para acelerar a implantação de redes de data centers de IA em larga escala.

Pode-se ver que o que a Upscale AI faz não se limita a criar um chip de rede mais rápido, mas sim a alcançar uma forte integração entre chip, sistema e software. Para executar grandes clusters de computação de IA, é necessário monitorar continuamente a congestão, o comportamento de sincronização e a utilização da GPU em toda a estrutura da rede.

Isso inclui: rede RDMA de alto desempenho, gerenciamento adaptativo de congestão, telemetria e observabilidade voltadas para GPU, e visibilidade operacional em tempo real em toda a estrutura da rede. O Upscale AI otimizará todos esses aspectos para construir a infraestrutura de rede determinística necessária para o funcionamento de clusters de computação AI modernos.

O desalinhamento entre a demanda por modelos e a infraestrutura de computação para IA gerou oportunidades empreendedoras em múltiplas áreas

A infraestrutura de computação para IA ainda possui um enorme potencial de desenvolvimento. Na verdade, pode permanecer a longo prazo em um estado de inovação alternada com o software de IA, especialmente os modelos. Quando a arquitetura do modelo é inovada e ocorre um descompasso estrutural na infraestrutura de computação para IA, seja no hardware ou no software, novas oportunidades surgem.

A situação atual é esta: a arquitetura MoE, parâmetros extremamente grandes, janelas de contexto muito longas e a demanda intensa de Agentes por tokens — a combinação desses fatores coloca a capacidade de IA em um estado de oferta insuficiente, ao mesmo tempo em que cria oportunidades de inovação na infraestrutura de capacidade de IA.

No nível dos chips de computação, nos últimos seis meses observamos a Unconventional AI (arrecadou US$ 475 milhões), a MatX (arrecadou US$ 500 milhões); no campo do design de chips impulsionado por IA, destacamos a Ricursive (arrecadou US$ 300 milhões), a Cognichip (arrecadou US$ 60 milhões); e, claro, a interconexão de redes em data centers de IA, como a Upscale AI (já arrecadou US$ 300 milhões e planeja arrecadar mais US$ 200 milhões), a Eridu (arrecadou US$ 200 milhões) e a Ethernovia (arrecadou US$ 90 milhões).

Os modelos de IA de código aberto da China já alcançaram liderança global, especialmente o recém-lançado DeepSeek V4. No nível de infraestrutura de IA, a China ainda está em fase de追赶, mas isso representa um enorme espaço para inovação. Ao observar o mercado de capital de risco chinês, numerosas empresas inovadoras já começaram a surgir, e algumas já obtiveram sucesso inicial.