A DeepSeek treinou seu modelo V3 por aproximadamente US$ 5,58 milhões. Para contexto, concorrentes dos EUA gastam rotineiramente dezenas a centenas de milhões em modelos de ponta.
Em maio de 2026, o DeepSeek reduziu permanentemente os preços do seu modelo V4-Pro em 75%. Os custos de entrada em cache caíram para tão baixos quanto RMB 0,025 por milhão de tokens.
DeepSeek não está sozinho nessa corrida para o fundo do poço. A empresa chinesa 01.ai supostamente oferece inferência a aproximadamente 14 centavos por milhão de tokens, posicionando os preços de API chineses como os mais baixos do mundo.
Os modelos de IA chineses no OpenRouter alcançaram crescimento de 5x no volume, impulsionado quase inteiramente por suas vantagens de custo em relação às alternativas dos EUA.
Como eles estão fazendo isso
Desenvolvedores chineses construíram arquiteturas MoE esparsas que reduzem a ativação de parâmetros de 671 bilhões para apenas 37 bilhões. Isso se traduz em reduções de custo computacional de 90-97% na camada de inferência.
Além da arquitetura, as equipes chinesas adotaram métodos de treinamento de menor precisão, como o FP8, que reduz a demanda computacional de cada cálculo individual.
O modelo de raciocínio R1 da DeepSeek foi treinado por apenas US$ 294.000, utilizando 512 chips H800 durante 80 horas.
Nascido da restrição
Desde 2023, as restrições de exportação dos EUA limitaram o acesso das empresas chinesas ao hardware de alta performance da Nvidia. O H100 e seus sucessores são efetivamente proibidos. Desenvolvedores chineses têm trabalhado com o H800, um chip reduzido projetado para cumprir as regras de exportação.
Principais players chineses nessa fronteira de eficiência incluem o Qwen da Alibaba, o Kimi da Moonshot AI, o GLM da Zhipu AI, o Doubao da ByteDance, além do DeepSeek.
O que isso significa para os investidores
Se o desempenho de IA de ponta for alcançável com custos de treinamento abaixo de US$ 6 milhões, em vez de mais de US$ 100 milhões, a vantagem competitiva de capital dos líderes de IA dos EUA começa a parecer mais frágil.
Para o ecossistema de cripto e Web3, a inferência mais barata reduz diretamente o custo de execução de aplicações descentralizadas impulsionadas por IA, redes de oráculos e ferramentas de análise on-chain.
As reduções de 97% no processamento que desenvolvedores chineses estão alcançando por meio de arquiteturas MoE esparsas não são apenas marcos técnicos. São sinais de preço, e os mercados acabam seguindo sinais de preço.
