DeepSeek V4 demonstra desempenho estável em chips de IA nacionais

Artigo | World Model Factory

DeepSeek V4, mais uma vez abalou toda a China.

Tamanho do parâmetro, comprimento do contexto, pontuação de referência... esses indicadores técnicos já foram repetidamente comparados em várias reportagens.

Mas se se ficar apenas nos dados superficiais, perde-se o núcleo mais estratégico deste lançamento.

Nos últimos três anos, os grandes modelos chineses sempre ficaram presos em uma realidade embaraçosa: treinamento depende da NVIDIA e inferência também depende da NVIDIA; os chips nacionais são apenas uma opção de backup.

Quando a NVIDIA interromper o fornecimento, todo o ecossistema de modelos da China ficará em estado de ansiedade.

Mas hoje, o DeepSeek V4 provou com sua força:

Um modelo de linguagem de ponta com trilhões de parâmetros também pode operar de forma estável e eficiente em infraestrutura de computação nacional.

O significado deste evento já ultrapassou os próprios indicadores técnicos do modelo.

A ruptura da nacionalização

Para realmente compreender a dificuldade deste ajuste de nacionalização, é preciso primeiro entender o império de chips da NVIDIA.

A NVIDIA não possui apenas chips, mas um ecossistema completo e altamente fechado:

Em termos de hardware, há a família de chips GPU, complementada por NVLink e NVSwitch para criar uma rede de alta velocidade entre os chips;

No software, CUDA é o sistema operacional de IA desenvolvido cuidadosamente pela NVIDIA ao longo de mais de uma década.

É como uma fábrica altamente otimizada, com toda a cadeia, desde os operadores mais fundamentais (unidades básicas de cálculo do modelo) até o cálculo paralelo, gerenciamento de memória e comunicação distribuída, totalmente personalizada para GPUs da NVIDIA.

Em outras palavras, a NVIDIA não vende apenas motores; ela também conserta as estradas, os postos de gasolina, as oficinas e o sistema de navegação.

Quase todos os maiores modelos globais cresceram nessa ecossistema.

Ao mudar para a capacidade de processamento nacional, enfrenta-se uma situação completamente diferente.

Diferentes arquiteturas de hardware, formas de interconexão distintas, maturidade variada da pilha de software e ecossistema de ferramentas ainda em rápida evolução.

DeepSeek deseja adaptar-se a chips nacionais, o que não é simplesmente trocar um motor, mas sim mudar um carro de corrida que já está em alta velocidade na rodovia para uma estrada de montanha ainda em construção.

Um pequeno erro pode causar vibrações, perda de potência ou até mesmo impedir que o veículo avance.

Desta vez, o DeepSeek V4 não escolheu continuar otimizando apenas pelo caminho CUDA, mas começou a se adaptar simultaneamente à cadeia de software da capacidade de processamento nacional.

De acordo com informações públicas, a V4 já alcançou uma ruptura com base em chips de inferência nacionais, com adaptação profunda ao chip Huawei Ascend 950 e funcionamento estável na mesma data do lançamento do modelo pela Cambricon, realizando verdadeiramente a adaptação no Dia 0.

Isso significa que os modelos de ponta agora começam a ter a possibilidade de serem implementados dentro do ecossistema de chips nacionais.

Como o DeepSeek V4 consegue isso?

Primeiro passo, ocorre no nível da arquitetura do modelo.

O V4 não optou por fazer com que os chips nacionais suportassem diretamente 1M de contexto, mas sim primeiro tornou o próprio modelo mais eficiente.

O design mais crucial no relatório técnico oficial é o mecanismo de atenção híbrida CSA + HCA e otimizações de contexto longo, como compressão de KV Cache.

Em resumo, a inferência tradicional de contexto longo faz com que o modelo, ao responder a cada pergunta, abra e consulte toda uma biblioteca, esgotando rapidamente a memória VRAM, a largura de banda e a capacidade de processamento.

A abordagem da V4 consiste em primeiro reindexar, compactar e filtrar os materiais da biblioteca, enviando apenas as informações mais cruciais para a cadeia de cálculo.

Desta forma, o contexto de 1M não depende mais inteiramente da força bruta de hardware, mas sim reduz primeiro o tamanho da conta de cálculo e da conta de memória gráfica por meio de algoritmos.

This is crucial for domestic chips.

Se o modelo ainda depender fortemente da largura de banda da memória gráfica e das bibliotecas CUDA maduras, mesmo que os chips nacionais consigam executá-lo, será difícil fazê-lo de forma barata e estável.

V4 primeiro reduz a carga de inferência, essencialmente aliviando a pressão sobre a capacidade de computação nacional.

Segundo passo, ocorre na arquitetura MoE e na camada de parâmetros de ativação.

Embora o V4-Pro tenha um total de 1,6 trilhão de parâmetros, apenas cerca de 49 bilhões de parâmetros são ativados a cada inferência; o V4-Flash tem um total de 284 bilhões de parâmetros, com cerca de 13 bilhões ativados a cada inferência.

Isso significa que não são buscados e calculados todos os parâmetros a cada chamada, mas sim, como uma grande equipe de especialistas, apenas os especialistas relevantes são chamados quando uma tarefa surge.

Para os chips nacionais, isso também é importante.

Reduz a carga computacional que cada inferência precisa suportar e torna contextos longos e cenários de Agentes mais fáceis de serem suportados por placas de inferência.

O terceiro passo é o ajuste na camada de operadores e kernels.

O maior ponto forte do ecossistema CUDA é que grande parte do cálculo de baixo nível já foi aprimorado pela NVIDIA, permitindo que muitos cálculos de alto desempenho sejam chamados diretamente.

O significado do V4 é que parte dos cálculos-chave foi retirada do black box da NVIDIA e transformada em caminhos de cálculo personalizados, mais transferíveis e adaptáveis.

Em termos mais simples, o V4 é como desmontar as peças mais importantes do motor para que fabricantes como Huawei Ascend e Cambricon possam ajustá-las conforme a estrutura de seus próprios chips.

Quarto passo: quadro de inferência e camada de serviço.

Se a adaptação de chips nacionais se limitar apenas a “executar demonstrações”, o significado industrial é limitado. O que realmente merece atenção é se ela pode entrar em um sistema de serviços chamáveis e cobráveis.

De acordo com testes internos, no Ascend 950PR, a velocidade de inferência da V4 apresentou melhora significativa em comparação com versões anteriores, com redução notável no consumo de energia, alcançando mais de duas vezes o desempenho por cartão em cenários específicos de baixa precisão em comparação com o NVIDIA H20 personalizado.

A DeepSeek mencionou que, atualmente, o V4-Pro está limitado por capacidade de processamento de alto nível, resultando em capacidade de serviço restrita; espera-se que, após a produção em massa dos supernós Ascend 950 no segundo semestre, os preços sejam reduzidos significativamente.

Isso indica que, com a produção em massa de hardware nacional como Ascend, o throughput e o custo-benefício do V4 ainda serão otimizados.

No entanto, é importante notar que o V4 não substituiu completamente as GPUs e o CUDA da NVIDIA. O treinamento de modelos ainda pode depender da NVIDIA, mas a inferência já pode ser gradualmente nacionalizada.

Na verdade, este é um caminho comercial muito realista.

O treinamento é um investimento em fases: treine uma vez, ajuste uma vez, itere uma vez. A inferência é um custo contínuo: milhões ou bilhões de chamadas diárias de usuários, cada uma exigindo poder de processamento.

O maior gasto das empresas de modelos está realmente na inferência, e a longo prazo, esse foco se tornará cada vez mais voltado para a inferência. Quem conseguir atender às demandas de inferência de forma mais barata e estável terá uma vantagem real na aplicação industrial.

Pela primeira vez, o DeepSeek V4 permitiu que a implantação de inferência dos modelos avançados da China seguisse um caminho que não parte do pressuposto padrão da CUDA da NVIDIA.

Este passo já é suficientemente significativo.

Impacto da V4 na aplicação industrial

Se a adaptação de chips nacionais responde à pergunta se é possível fazer funcionar, então o preço responde a outra questão mais realista:

As empresas conseguem arcar com isso?

O ponto mais forte do DeepSeek no passado era justamente conseguir reduzir a capacidade de modelos de ponta a preços extremamente baixos.

Assim era na era V3 e R1, e assim continua na V4.

A diferença é que, desta vez, não está travando uma guerra de preços em uma janela de contexto comum, mas sim continuando a reduzir preços com base em um contexto de 1M e capacidades de Agent.

De acordo com o preço oficial do DeepSeek:

V4-Flash: entrada com cache hit a 0,2 yuan por milhão de tokens, entrada com cache miss a 1 yuan por milhão de tokens, saída a 2 yuan por milhão de tokens;

A entrada com acerto de cache no V4-Pro custa 1 yuan por milhão de tokens, a entrada sem acerto de cache custa 12 yuan por milhão de tokens e a saída custa 24 yuan por milhão de tokens.

Coloque-o dentro dos modelos nacionais da mesma categoria para ver:

Em comparação com o Alibaba Qwen3.6-Plus na faixa de 256K-1M, o preço de saída do V4-Pro é aproximadamente metade, e o V4-Flash é ainda menor.

Em comparação com a série Xiaomi MiMo Pro na faixa de 256K-1M, o V4-Flash e o V4-Pro são ambos significativamente mais baratos.

O contexto do Kimi K2.6 é de 256K; em comparação, o contexto do V4-Pro é mais longo e com preço mais baixo; o V4-Flash reduz diretamente o custo de chamadas frequentes para outra ordem de grandeza.

This has great significance for enterprise applications.

Por causa do contexto de 1M, o modelo pode ler inteiramente um repositório de código, um pacote denso de contratos, uma prospecto de centenas de páginas, atas de reuniões longas ou o estado histórico acumulado durante a execução contínua de tarefas por um Agente.

Muitas empresas anteriormente ficaram presas aqui: a capacidade do modelo era suficiente, mas o contexto não era; o contexto era suficiente, mas o preço era muito alto; o preço era aceitável, mas a capacidade do modelo não era estável.

Por exemplo, uma empresa que desenvolve um agente de pesquisa e investimento precisa fazer com que o modelo leia simultaneamente os relatórios anuais da empresa, as reuniões de resultados financeiros, relatórios setoriais, notícias sobre concorrentes e atas internas.

Quando o contexto possui apenas 128K ou 256K, o sistema frequentemente precisa dividir, recuperar e resumir continuamente, resultando na perda de informações durante múltiplas compressões.

Um contexto de 1M permite que o modelo mantenha mais material original, reduzindo omissões e fragmentos.

Por exemplo, o agente de código.

Não se trata de escrever algumas linhas de código de uma vez, mas sim de ler o repositório, entender as dependências, modificar arquivos, executar testes e corrigir com base nos erros relatados. Esse processo consome tokens repetidamente.

Se cada passo for caro, o agente só poderá fazer demonstrações; mas se os tokens forem suficientemente baratos, ele poderá entrar no processo real de desenvolvimento.

Este também é o valor industrial do V4.

Ele não é necessariamente o modelo mais poderoso, mas pode se tornar o modelo mais utilizado por empresas.

DeepSeek novamente transformou a IA de um brinquedo exclusivo de poucas grandes empresas em uma ferramenta de produtividade escalável para inúmeras indústrias.

O verdadeiro valor do V4

Quando o contexto de 1M chega à linha de produção a um preço extremamente baixo, o verdadeiro valor do DeepSeek V4 se revela.

Tudo isso é construído sobre uma base de capacidade de processamento nacional ainda imatura.

Diante da lacuna sistêmica na ecossistema de chips nacionais, a equipe do DeepSeek não escolheu esperar até que o ecossistema amadurecesse para ir ao ar.

Eles adiaram repetidamente a janela de lançamento, dedicando meses a profundos testes conjuntos com parceiros como a Huawei — a complexidade desse engenharia supera em muito o que o público imagina.

Por isso, alcançar capacidades de inferência e agente próximas às dos melhores modelos fechados no poder de computação nacional é especialmente difícil.

O V4 prova por si só que, mesmo diante de uma lacuna temporária no ecossistema de hardware, a equipe chinesa ainda pode alcançar desempenho competitivo por meio de investimentos extremos em engenharia e inovação integrada de software e hardware.

Claro, ainda há uma lacuna até a maturidade total.

A maturidade da cadeia de ferramentas da plataforma Ascend, a estabilidade de clusters em escala ultra-grande e a otimização aprofundada em mais cenários verticais exigem esforços contínuos de todas as partes da indústria.

Mas o sucesso do V4 já traçou um caminho inspirador para os modelos subsequentes.

Ele injetou um impulso forte na autonomia e controle de toda a cadeia de suprimentos de IA.

Diante de um ambiente externo cheio de incertezas, essa resiliência que consegue superar limitações vale mais respeito do que simples indicadores de parâmetros.

Não se deixe seduzir pela fama, não se deixe aterrorizar pela calúnia; siga o caminho correto e mantenha-se íntegro.

Esta frase do oficial do DeepSeek é exatamente o melhor comentário sobre ela.