DeepSeek V4 e Meituan LongCat 2.0 ultrapassam a barreira de um trilhão de parâmetros

Empresas chinesas de IA começam a tentar estabelecer seu próprio caminho.

No início deste ano, o setor de tecnologia no exterior tem se concentrado na questão da capacidade de processamento da China.

Em janeiro, Musk afirmou em um podcast que a China superará de longe outras regiões do mundo em capacidade de IA. Em fevereiro, o CEO da OpenAI, Altman, disse que o progresso tecnológico da China em inteligência artificial é "incrivelmente rápido". O CEO da NVIDIA, Jensen Huang, também declarou publicamente várias vezes: "Restringir a tecnologia de IA da China acelera seu desenvolvimento independente".

2025 pode ser considerado o ano do agrupamento da oferta. GPU nacionais, como Moore Threads e Muxi Chips,相继 entraram no mercado de capitais, aprofundando ainda mais a base industrial dos grandes modelos nacionais. Em 2026, as mudanças se propagaram para os segmentos a jusante da cadeia de valor, e em final de abril, várias versões atualizadas de grandes modelos nacionais foram lançadas.

Em 20 de abril, Moonshot lançou o modelo Kimi K2.6, especializado em programação de longo prazo; em 24 de abril, foi lançado o DeepSeek V4; posteriormente, o LongCat-2.0-Preview da Meituan foi aberto para teste, ambos com um total de parâmetros superior a um trilhão e ambos suportam contexto ultra longo de 1M.

É digno de nota que o DeepSeek V4 concluiu a migração e adaptação da arquitetura NVIDIA para a plataforma Huawei Ascend; já o LongCat2.0 do Meituan é um modelo de linguagem de trilhões de parâmetros, com treinamento e inferência totalmente baseados em capacidade de processamento nacional, utilizando entre 50.000 e 60.000 chips de processamento nacionais.

Por muito tempo, os profissionais de IA na China adotaram amplamente a estratégia de se aproveitar de soluções maduras já existentes. Agora, as empresas chinesas de IA começam a tentar traçar seus próprios caminhos.

Construir estradas na selva

Como você completa uma tarefa difícil?

The answer by science fiction writer Arthur Clarke is: "The only way to discover the limits of the possible is to go beyond them into the impossible."

O DeepSeek V4 sofreu múltiplas alterações de data desde o planejamento inicial até o lançamento final. A especulação geral externa é que uma das razões foi a necessidade de migrar o código principal fora do CUDA da NVIDIA.

O ecossistema CUDA, após décadas de aprimoramento, é uma plataforma de desenvolvimento poderosa e bem equipada com ferramentas. O ecossistema de capacidade de processamento nacional ainda está em fase inicial de construção. O processo de migração de código implica que a equipe de desenvolvimento precise realizar uma grande quantidade de reestruturação de frameworks subjacentes.

Finalmente, o DeepSeek conseguiu: dois dias após o lançamento do V4, o J.P. Morgan apontou em um relatório que o V4 foi com sucesso adaptado aos chips Ascend da Huawei, validando a viabilidade da capacidade de processamento nacional em inferência de IA de ponta; além disso, o DeepSeek reduziu significativamente os custos de inferência por meio de inovações técnicas subjacentes, como a arquitetura de atenção híbrida.

DeepSeek reduziu custos e aumentou a eficiência de forma técnica, concluindo uma migração robusta reescrevendo metade do trabalho de um grande modelo. No mesmo dia, o LongCat-2.0-Preview do Meituan foi executado diretamente sobre infraestrutura de computação nacional.

Quais são os desafios técnicos da capacidade de computação nacional? Vamos analisar com o exemplo do LongCat-2.0-Preview.

O primeiro desafio é de natureza física. A capacidade e a largura de banda da memória de vídeo dos componentes nacionais diferem dos chips da NVIDIA; durante o treinamento e a implantação de modelos com trilhões de parâmetros, a equipe do Meituan enfrentou grandes desafios de engenharia, exigindo mais esforço para ajustar estratégias de paralelismo e otimizar a memória de vídeo.

O segundo desafio é o grau de maturidade do ecossistema de software; para atender às características dos chips nacionais e garantir precisão e reprodutibilidade durante todo o treinamento, a equipe precisa reescrever e otimizar os operadores principais, bem como desenvolver internamente operadores totalmente determinísticos.

O terceiro desafio é a estabilidade do cluster de dezenas de milhares de GPUs. Em um cluster de grande escala que utiliza 50.000 a 60.000 GPUs nacionais, falhas de hardware são inevitáveis. Para isso, a equipe desenvolveu um sistema completo de tolerância a falhas e recuperação automática.

Por fim, com base nas características dos hardware nacionais, a equipe realizou um design otimizado para o framework de treinamento e a estrutura do modelo, superando as limitações de adaptação dos frameworks gerais e melhorando o desempenho computacional.

A otimização do algoritmo do DeepSeek reduziu a barreira de poder computacional e diminuiu o preço do modelo; a prática de engenharia da Meituan demonstrou a viabilidade dos chips nacionais. Essas explorações também contribuíram para o desenvolvimento de capacidades e experiências de engenharia para o ecossistema de chips nacionais.

Liang Wenfeng já disse: “Não tínhamos a intenção de nos tornar um bagre, apenas acabamos nos tornando um por acaso”, e agora o “efeito bagre” já se manifestou, e a DeepSeek não está sozinha.

Do ponto único ao sistema

Tang Daosheng da Tencent Cloud certa vez fez esta analogia: “O modelo grande é o motor, e o usuário é o motorista.” Os usuários facilmente notam o desempenho do motor, mas um motorista excelente percebe que o combustível e o chassi são igualmente importantes.

O desenvolvimento da capacidade de computação na China depende do avanço coordenado de toda a cadeia de valor. As empresas-chave em cada etapa estão continuamente preenchendo as lacunas.

Na extremidade de fabricação, dados públicos indicam que a produção de chips na China está aumentando constantemente, mas apresenta uma estrutura em "haltere", com processos maduros acima de 28nm dominando absolutamente, enquanto a capacidade de processos avançados de 14nm e abaixo permanece escassa.

Diante da realidade da ausência de máquinas de litografia EUV, empresas como SMIC e Hua Hong Semiconductor estão avançando no desenvolvimento de processos como múltiplas exposições, buscando um ponto de equilíbrio dentro dos limites físicos. Múltiplas reportagens indicam que a taxa de rendimento do processo N+2 da SMIC (equivalente a 7nm) já superou 80%, o que significa que a empresa ultrapassou a barreira para produção comercial em larga escala.

No lado da capacidade de processamento, os chips nacionais ainda apresentam lacuna em relação à NVIDIA em termos de desempenho por unidade. A prática de produtos como o Huawei Ascend 910C demonstra que, por meio de uma taxa de aceleração linear de cluster extrema, é possível realizar o treinamento de modelos de grande escala.

Quem domina o ecossistema domina o mundo. A barreira competitiva construída pela NVIDIA CUDA é tão profunda em grande parte porque estabeleceu um padrão universal de compatibilidade entre software e hardware.

Os profissionais da indústria também reconhecem isso. Por exemplo, Cambricon lançou uma plataforma de software básico compatível com frameworks principais, reduzindo a barreira de migração para desenvolvedores. O sistema de código aberto liderado pelo Instituto de Pesquisa em Inteligência Artificial Zhiyuan construiu uma interface subjacente unificada, permitindo que modelos de camada superior operem em diversos chips nacionais diferentes.

Grandes empresas de internet da China também estão tomando várias ações: a estratégia de dois trilhos do Baidu e os investimentos de centenas de bilhões do ByteDance estão buscando soluções melhores para a infraestrutura de poder de computação.

De acordo com dados públicos, nos últimos anos, Meituan investiu em pelo menos 21 empresas relacionadas aos setores de semicondutores/hardware inteligente e modelos grandes gerais. Entre elas, estão empresas como Moore Threads e Muxi Chips, no nível de capacidade de processamento de chips, bem como Axinom, no campo de chips visuais; além de diversas outras empresas em segmentos específicos, como Guangzhou Zhongshan e Dongfang Suanxin, em novos materiais.

Enquanto o capital técnico continua a acompanhar de perto, o capital industrial também atua como investidor e parceiro na construção de capacidade de processamento, formando gradualmente um ciclo positivo.

Do mundo digital para tarefas reais

Atualmente, a inteligência artificial está em um ponto crítico da terceira onda, com modelos grandes impulsionando sua transição da inteligência artificial fraca para a inteligência artificial geral; mais importante ainda, impulsionando os robôs da era 1.0 de robôs especializados para a era 2.0 de inteligência corporal geral.

As palavras do diretor do Beijing Academy of Artificial Intelligence, Wang Zhongyuan, destacam que o ponto crucial da capacidade da IA é o mundo físico.

Por um lado, diversos fabricantes nacionais estão se esforçando para permitir que grandes modelos na nuvem "leiam dez mil livros", aprimorando a inteligência e a rigorosidade do raciocínio lógico dos modelos. Por outro lado, também é necessário fazer com que os grandes modelos "viajem dez mil milhas"; por exemplo, o modelo Wenxin foi integrado ao sistema de decisão de veículos autônomos; a solução de inspeção industrial do modelo Hunyuan já está sendo utilizada em múltiplos cenários de linhas de produção.

Os serviços de entrega de comida, lojas presenciais e viagens e hospedagem do Meituan formam a rede de execução de tarefas mais complexa da vida cotidiana. Aqui existem inúmeros cenários reais: desde a velocidade de preparo dos alimentos na cozinha dos estabelecimentos, até as rotas de entrega dos motoboys em meio a uma tempestade, passando por um simples “quero comer fondue” de um usuário à meia-noite.

Wang Xing explicitamente afirmou que o aplicativo Meituan seria o primeiro a ser atualizado para se tornar um "aplicativo impulsionado por IA". Isso significa que o objetivo de treinamento do LongCat não é apenas responder "qual restaurante tem carne refogada deliciosa", mas também "encontrar esse restaurante, selecionar o melhor cupom de grupo e reservar dois assentos para sextas-feiras às 19h".

Isso significa que a eficácia da entrega da tarefa é especialmente importante, o que também explica por que a Meituan enfatiza a construção de uma base de IA para o mundo físico.

Passando da melhoria de parâmetros para o desempenho de potência de cálculo, os grandes modelos nacionais estão avançando da fase de “funcionais” para “fáceis de usar”.

Não há atalhos neste caminho. No futuro, quando algoritmos, poder de processamento, capital e cenários continuarem a gerar reações químicas, a história da IA na China também passará da página da “quebra pontual” para a da “evolução sistêmica”.

Este artigo é do canal oficial do WeChat "Lan Dong Business", autor: Yu Weilin