NVIDIA RTX Spark redefine o PC de IA com desempenho de IA de 1 petaflop

Nos últimos dois anos, os fabricantes de PCs mencionaram repetidamente um parâmetro ao promoverem os "AI PCs": o poder de processamento da NPU. Mas, seja os 45 TOPS do Intel Lunar Lake ou os 50 TOPS do AMD Strix Point, esses números permanecem em um nível relativamente moderado. São capazes de realizar desfoque de fundo, redução de ruído de voz e executar alguns modelos pequenos na borda, mas nada além disso.

Em 31 de maio, a NVIDIA apresentou no GTC 2026 o superchip RTX Spark, elevando esse número para 1 petaflop, ou seja, 1000 TOPS. Não foi um aumento de 30% ou 50%, mas sim uma salto direto de uma ordem de grandeza.

Também foram lançadas outras mensagens ao mesmo tempo: a Microsoft atualizou os mecanismos de segurança nativos do Windows em conjunto com o RTX Spark e introduziu o tempo de execução de sandbox aberto da NVIDIA, o OpenShell, na plataforma Windows; a Adobe anunciou a reconstrução sob a base do Photoshop e do Premiere, otimizados especificamente para a arquitetura de memória unificada do RTX Spark; seis primeiros fabricantes OEM confirmaram que lançarão, no outono deste ano, notebooks finos e leves e desktops compactos equipados com este chip.

O que a NVIDIA fez nesta GTC não foi lançar um novo chip. Ela está tentando estabelecer um novo padrão de hardware para a categoria de "computadores pessoais de IA".

imagem

Quando a GPU se torna a estrela do PC

Primeiro, analise o próprio chip. De acordo com os dados divulgados pela NVIDIA no GTC, o RTX Spark integra uma GPU da arquitetura Blackwell, com 6.144 núcleos CUDA, acompanhada por um CPU Arm Grace de 20 núcleos, desenvolvido em parceria com MediaTek, fabricado com processo de 3 nm da TSMC. A mudança chave está na arquitetura de memória: até 128 GB de memória unificada, com CPU e GPU compartilhando o mesmo pool de memória, eliminando a necessidade de transferir dados entre eles.

Isso é o oposto da lógica de arquitetura dos PCs anteriores.

A estrutura básica do PC tradicional é “CPU x86 como processador principal e GPU independente como acessório opcional”. Mesmo o conceito recentemente surgido de PC de IA, as abordagens da Intel e da AMD consistem em integrar uma NPU dentro da CPU como um módulo adicional para aceleração de IA, com desempenho geralmente de quarenta a cinquenta TOPS. A GPU continua sendo um “acessório externo”.

RTX Spark redefiniu o equilíbrio de poder. Este SoC transforma a GPU em protagonista e relega a CPU ao papel de coadjuvante. A NVIDIA fornece um desempenho de IA de 1 petaflop FP4, equivalente a 1000 TOPS, mais de 20 vezes o desempenho do NPU integrado na geração anterior de PCs de IA. Isso não é apenas uma aceleração na mesma pista, mas o início de uma pista completamente diferente.

A velocidade com que os fabricantes OEM estão seguindo confirma essa avaliação. De acordo com o anúncio oficial da NVIDIA e reportagens subsequentes da DIGITIMES, ASUS, Dell, HP, Lenovo, Microsoft Surface e MSI lançarão notebooks finos e leves e desktops compactos com RTX Spark no outono deste ano, com modelos da Acer e Gigabyte seguindo em seguida. Quase todas as principais marcas de PCs Windows estão entrando no jogo.

imagem

RTX Spark não é um produto nascido do zero. No início de 2025, o mesmo chip com núcleos Blackwell e Grace já havia sido apresentado sob os nomes Project DIGITS e DGX Spark, mas na época era posicionado como uma supercomputadora de mesa para desenvolvedores com Linux, com tamanho semelhante ao de um pequeno desktop. Um ano depois, essa arquitetura foi compactada no espaço de refrigeração de um notebook fino e leve, o sistema operacional foi trocado de Linux para Windows, e o público-alvo foi expandido de desenvolvedores de IA para consumidores comuns e empresas. Essa é a mudança mais notável na lançamento consumidor da GTC 2026: a NVIDIA não está lançando um brinquedo para desenvolvedores, mas sim abrindo as portas para o mercado consumidor.

O modelo de 120B está rodando localmente, é suficiente?

Os números de poder de processamento e memória devem finalmente responder a uma pergunta: o que é possível fazer?

A resposta dada pela NVIDIA durante o lançamento foi que o RTX Spark suporta a execução local de modelos grandes com 120 bilhões de parâmetros, com uma janela de contexto que pode atingir um milhão de tokens. O que significa 120B? Como referência, a prática atual mais comum para execução local de modelos em hardware de consumo é executar modelos de 30B a 40B parâmetros em uma RTX 4090 com 24 GB de memória VRAM, utilizando quantização. Modelos menores, como os de 9B, conseguem ser executados rapidamente em placas gráficas de consumo. A transição de 9B para 120B redefine os padrões de “suficiência” para a IA na borda.

128 GB de memória unificada é o pré-requisito para tudo isso. Na arquitetura tradicional de PC, a CPU tem sua própria memória do sistema e a GPU tem sua própria memória de vídeo, com uma fronteira física entre ambas. Um modelo maior que a capacidade da memória de vídeo ou não consegue ser executado, ou exige divisão complexa do modelo e troca de memória, resultando em queda drástica na velocidade. A arquitetura de memória unificada elimina esse gargalo, colocando os dados do modelo diretamente em um pool compartilhado de 128 GB, acessível tanto pela CPU quanto pela GPU. A Apple demonstrou pela primeira vez a viabilidade dessa rota tecnológica para o consumidor em seu Apple Silicon, e agora a NVIDIA a traz para o ecossistema Windows.

Além da inferência de grandes modelos, os casos de uso listados pela NVIDIA incluem edição de vídeo 12K, renderização de cenas 3D superiores a 90 GB e jogos com ray tracing acima de 100 fps em resolução 1440p. O ponto comum desses cenários é a enorme quantidade de dados processada em cada operação; PCs tradicionais ou exigem um tempo de espera várias vezes maior ou simplesmente não conseguem executá-los.

Ainda há uma distância entre “suporte à execução” e “funcionamento fluido”. A NVIDIA não divulgou a velocidade real de inferência do modelo de 120B no RTX Spark, nem dados de latência do primeiro token em cenários com contexto de milhões de tokens. O indicador-chave para determinar a velocidade de inferência com contexto longo é a largura de banda da memória. Como referência, o DGX Spark, que também utiliza o núcleo GB10, apresentou em testes práticos uma largura de banda de memória de aproximadamente 301 GB/s. Esse nível de largura de banda é adequado para executar o modelo de 120B, mas ao processar janelas de contexto na ordem de milhões de tokens, os usuários podem precisar aguardar vários segundos para ver o primeiro token de saída. A versão portátil do RTX Spark pode ter uma largura de banda real ainda mais ajustada devido a limitações de consumo de energia.

Adicione uma gaiola de segurança ao agente de IA

Outro lançamento central, além da capacidade de processamento, é a colaboração entre NVIDIA e Microsoft a nível de sistema. Essa parte pode ser o conteúdo mais facilmente ignorado, mas de maior impacto para a indústria, no lançamento voltado ao consumidor da GTC 2026.

Um computador capaz de executar um modelo de 120B, se entregue a um agente de IA que possa operar autonomamente a área de trabalho, clicar em botões e ler/escrever arquivos, não representa mais um risco de segurança no nível de “perda de dados”, mas sim “o agente fará coisas que você não deseja que ele faça”. Sem resolver essa questão, as empresas não poderão implantar esse tipo de dispositivo para seus funcionários.

As soluções da Microsoft e da NVIDIA constituem duas camadas de defesa. A primeira camada, a Microsoft atualizou os mecanismos de segurança nativos do Windows, fornecendo monitoramento e restrições ao comportamento de agentes de IA a nível do sistema operacional. A segunda camada, a NVIDIA introduziu oficialmente o OpenShell Runtime na plataforma Windows. De acordo com a documentação oficial da NVIDIA, o OpenShell é um runtime de sandbox de código aberto que oferece isolamento em nível de kernel. Ele delimita um intervalo operacional controlado para agentes de IA, permitindo que eles executem tarefas de forma autônoma dentro desse limite, mas com permissões estritamente restringidas, impedindo acesso a arquivos centrais do sistema, conexões de rede ou dados sensíveis do usuário.

O significado desse conjunto para a aquisição corporativa é claro. Antes disso, o conceito de “agente de IA local” permanecia na fase de demonstração técnica. O hardware funcionava, mas o quadro de segurança estava vazio. Nenhum departamento de TI corporativo ousaria incluir dispositivos nesse estado em sua lista de aquisições. A NVIDIA e a Microsoft inseriram uma camada padronizada de isolamento entre o hardware e o aplicativo, transformando o “funcional” em “gerenciável”.

O overhead de desempenho do OpenShell é uma variável que ainda precisa ser observada. A isolamento em sandbox geralmente causa alguma perda de desempenho; no entanto, a NVIDIA ainda não divulgou dados sobre o impacto exato na velocidade de inferência ou na resposta do sistema. A complexidade de implantação no lado da TI corporativa e a compatibilidade com políticas de segurança existentes são questões práticas que só poderão ser verificadas após o lançamento dos dispositivos OEM.

Por que a Adobe está disposta a “reconstruir desde a base”?

O nível de cooperação dos desenvolvedores de software é geralmente um indicador da capacidade de um novo hardware se estabelecer no mercado.

As ações anunciadas pela Adobe durante a GTC são o sinal mais significativo no lado de software desta rodada de lançamentos. Conforme confirmado pelo blog oficial da NVIDIA e por executivos da Adobe, a Adobe iniciou uma reestruturação fundamental do Photoshop e do Premiere, otimizadas especificamente para a arquitetura de memória unificada RTX Spark, afirmando que o desempenho de IA e processamento gráfico pode ser aumentado em até 2 vezes.

A “reestruturação de fundação” não é apenas adicionar um plugin ou criar uma camada de compatibilidade. Em PCs tradicionais, a CPU e a GPU possuem espaços de memória separados; ao processar um arquivo PSD muito grande ou uma linha do tempo de vídeo 8K, os dados precisam ser constantemente transferidos entre os dois sistemas de memória, o que representa um grande ponto de desperdício de desempenho. A memória unificada do RTX Spark permite que a CPU e a GPU compartilhem diretamente o mesmo espaço de 128 GB, e essa mudança na arquitetura traz valor prático para o fluxo de trabalho de criadores profissionais. O fato de a Adobe ter modificado seu código de fundação demonstra que ela reconhece essa direção arquitetônica como algo mais do que uma mera estratégia de marketing pontual.

No entanto, o ponto de referência para esse “dobro de aceleração” não foi divulgado pela NVIDIA nem pela Adobe. É comparado com processadores x86 da mesma geração mais uma placa de vídeo dedicada, ou com a solução NPU do PC AI da geração anterior? Os resultados são completamente diferentes. Antes que as condições do teste de desempenho sejam divulgadas, o valor desse número permanece questionável.

Também foram anunciados o suporte da Blackmagic Design, ComfyUI, llama.cpp, OTOY e várias desenvolvedoras de jogos. O suporte ao ComfyUI e llama.cpp é notável, pois são as ferramentas de código aberto mais ativas nos fluxos de trabalho de IA locais atualmente. O apoio inicial da comunidade de desenvolvedores frequentemente reflete mais genuinamente o potencial ecológico de uma plataforma do que promessas de grandes empresas.

A NVIDIA está construindo, no ecossistema Windows, uma experiência semelhante à integração de hardware e software da Apple, usando o ecossistema CUDA e a arquitetura de memória unificada. A diferença é que o muro da Apple foi construído por ela mesma, enquanto a NVIDIA precisa convencer a Microsoft e os ISVs a ajudarem a construí-lo. O fato de a Adobe estar disposta a agir desde a base indica, pelo menos, que a primeira pedra desse muro já foi colocada.

Além dos parâmetros em papel

Voltando a uma questão mais prática: esses dispositivos realmente estão disponíveis para compra, e como é a experiência ao adquiri-los?

De acordo com as informações divulgadas pela NVIDIA, os primeiros dispositivos RTX Spark serão lançados no outono deste ano, incluindo notebooks finos e leves e desktops compactos da ASUS, Dell, HP, Lenovo, Microsoft Surface e MSI. Modelos da Acer e Gigabyte seguirão posteriormente. Os preços exatos e as datas de lançamento específicas de todos os OEMs ainda não foram divulgados.

Mais importante do que o preço são algumas incógnitas físicas. Como equilibrar consumo de energia e dissipação de calor ao inserir um chip com 1 petaflop de poder de processamento em um notebook leve e fino? Como será o desempenho diário e a duração da bateria do RTX Spark em cenários não relacionados a IA? A largura de banda real de 128 GB de memória unificada em um formato de notebook será significativamente reduzida devido a limitações de consumo de energia?

Essas questões são o verdadeiro teste para a implementação industrial. O desempenho de pico de um chip em um protótipo de engenharia e seu desempenho real de 8 horas por dia nas mãos dos consumidores muitas vezes são duas coisas diferentes. A NVIDIA enfatizou a eficiência energética do RTX Spark durante o lançamento, mas não forneceu valores específicos de TDP ou dados de autonomia.

Do ponto de vista do cenário da indústria de PCs, o surgimento do RTX Spark marca a formação de um novo modelo de divisão de trabalho. Nos últimos trinta anos, o poder sobre os chips principais dos PCs esteve nas mãos das fabricantes de processadores x86; embora as fabricantes de GPUs tenham se tornado cada vez mais importantes, sempre permaneceram como “componentes conectados à placa-mãe”. A NVIDIA apresentou desta vez um SoC completo, integrando desde a CPU até a GPU e o controlador de memória, com a parte CPU baseada em Arm projetada pela MediaTek. A estrutura de poder da cadeia de suprimentos de PCs está passando de “CPU x86 mais GPU opcional” para “plataforma SoC centrada em GPU”.

Essa transição não será concluída em um único dia. A estratégia de precificação da OEM, o desempenho real de eficiência energética dos produtos, o progresso da adaptação do software ISV e o ciclo de validação de compra dos clientes corporativos — cada etapa determina se o RTX Spark se tornará um novo ponto de referência na indústria de PCs ou apenas outra demonstração técnica com início alto e desempenho baixo. A resposta só estará disponível pelo menos até o outono deste ano.