Estratégia da DeepSeek: Construindo um ecossistema de hardware de IA de US$ 10 trilhões

A grande estratégia de 10 trilhões de dólares da DeepSeek

Autor original: @bookwormengr

Peggy, BlockBeats

Nota do editor: No último ano, as discussões em torno do DeepSeek concentraram-se principalmente no desempenho do modelo, na estratégia de código aberto e na guerra de preços. Mas compreender o DeepSeek apenas por meio de perguntas como “vende assinatura ou não?”, “tem multimodalidade?”, “consegue ser um agente de codificação?” pode subestimar o que ele realmente pretende mudar.

Este artigo apresenta um julgamento mais ousado: o objetivo da DeepSeek não é necessariamente monetizar na camada de aplicação a curto prazo, mas sim, por meio de uma série de inovações na arquitetura de base, reestruturar o custo do treinamento e da inferência de IA e impulsionar indiretamente a formação de um novo ecossistema de hardware. Da MoE à MLA, da DSA à CSA, mHC, Engram, e até o Dual Path e TileLang, a rota tecnológica da DeepSeek sempre girou em torno de uma questão central: como executar modelos mais potentes com menos capacidade de computação avançada, considerando limitações em HBM, processos avançados, empacotamento e ecossistema CUDA.

O mais importante a observar no artigo não é se o DeepSeek poderá ganhar centenas de milhões de dólares com API ou assinaturas, mas sim se ele está vinculando as capacidades do modelo, o sistema de memória e o ecossistema de hardware nacional. A compressão do KV Cache reduz a dependência de HBM, NAND e SSD podem suportar armazenamento de cache de longa duração, LPDDR pode ser usado para carregamento em fluxo de pesos e armazenamento de Engram, enquanto o TileLang tenta enfraquecer a vantagem do CUDA. Se essas inovações continuarem a se espalhar, os beneficiários não serão apenas o DeepSeek em si, mas também armazenamento, ASIC, GPU, chips de rede e toda a cadeia de infraestrutura de IA.

Claro, as afirmações sobre um "ecossistema de indústria de 10 trilhões de dólares" e uma "avaliação de 1 trilhão de dólares" ainda possuem um forte caráter especulativo. No entanto, elas oferecem um caminho importante para compreender o DeepSeek: o código aberto não significa necessariamente abrir mão da monetização, e preços baixos não são apenas uma forma de subsídio ao mercado. Para o DeepSeek, o verdadeiro negócio pode não estar na camada de aplicativos, mas em tornar mais hardware utilizável e possibilitar uma oferta de IA com custo mais baixo. Em outras palavras, o que ele vende pode não ser o modelo em si, mas a viabilidade da próxima geração de infraestrutura de IA.

The following is the original text:

Você já se perguntou como o DeepSeek pretende ganhar dinheiro, e talvez muito dinheiro?

Ele não lançou um plano de assinatura competitivo para programação, como GLM, MoonShot e MiniMax; tampouco possui modelos multimodais, de áudio ou vídeo. Até agora, ele nem mesmo possui seu próprio harness — o framework externo para chamada de modelos, integração de ferramentas e execução de tarefas — embora eles tenham começado recentemente a contratar profissionais para construir esse sistema.

Ao mesmo tempo, o DeepSeek parece firmemente comprometido com o código aberto, até mesmo disposto a compartilhar publicamente seus próprios “segredos”. Isso não é loucura? Não está apenas queimando dinheiro? Os investidores que pretendem investir nele 10 bilhões de dólares não estão jogando o dinheiro pelo ralo?

Eu acho pessoalmente que a resposta é exatamente o contrário.

Em seguida, farei algumas observações com base no que o DeepSeek já fez até agora e analisarei a estratégia que parece estar seguindo. O objetivo do CEO do DeepSeek, Liang Wenheng, pode ir muito além da simples competição entre modelos. Ele pode estar visando um prêmio muito maior: o DeepSeek tem a oportunidade de alcançar uma avaliação de 1 trilhão de dólares, ao mesmo tempo em que impulsiona a formação de uma nova indústria de 10 trilhões de dólares.

TechInAsia sobre a última rodada de financiamento da DeepSeek

Revisitar a "Jornada do Herói" do DeepSeek

DeepSeek tem enfrentado ventos contrários. Em vez de lançar continuamente modelos ligeiramente mais fortes e pressa em transformá-los em aplicativos diretamente monetizáveis, como assinaturas de programação, em 27 de janeiro de 2025, eu publiquei um tweet muito compartilhado sobre a "jornada do herói" do DeepSeek, conforme eu a via. Hoje, essa história tornou-se ainda mais interessante.

Enquanto outros ainda tentam construir modelos densos, a DeepSeek escolheu o modelo de mistura de especialistas (Mixture of Experts, MoE), mais difícil de treinar.

Eles adotaram o método dos "primeiros princípios" para desenvolver o novo algoritmo GRPO, substituindo o algoritmo de aprendizado por reforço PPO, que era dominante na época, mas tinha um custo de implementação mais alto.

Eles descobriram que o aprendizado por reforço com recompensas verificáveis (Reinforcement Learning from Verified Rewards, RLVR) é a estratégia-chave para melhorar a capacidade de raciocínio do modelo.

Eles também propuseram uma estratégia simples de decodificação por inferência por meio da "Multi Token Prediction", tornando ao mesmo tempo os sinais de treinamento mais densos.

Eles aprimoraram a linha de produção "ZERO bubble" para aumentar a eficiência na utilização de recursos limitados de GPU.

Eles lançaram o balanceador de carga especialista, tornando mais fácil para todos implantar modelos MoE. Em particular, por meio da estratégia "Wide Expert Parallel", os modelos podem ser servidos com lotes maiores, reduzindo significativamente o custo de inferência.

Eles desenvolveram mecanismos como MLA, DSA, CSA e HCA para reduzir a necessidade de KV Cache e manter o aumento da demanda computacional com o crescimento do comprimento do contexto o mais próximo possível de constante.

Eles inventaram o Engram, trocando memória por eficiência computacional.

Eles também desenvolveram o mHC, permitindo treinamento estável mesmo ao aumentar o tamanho do modelo. Existem muitos outros exemplos semelhantes.

Na estrutura narrativa mais comum, a jornada do herói, o herói nunca decide desde o início para onde sua jornada o levará. Ele descobre gradualmente sua verdadeira missão grandiosa enquanto aprende ao longo do caminho e a cumpre apesar de inúmeros obstáculos. Ele encontrará muitos céticos, mas escolherá ignorá-los. Também encontrará muitos agentes mal-intencionados. Ele possui defeitos ou fraquezas óbvias, mas finalmente superará esses desafios e cumprirá sua missão. Ele enfrenta desafios aparentemente insuperáveis, mas encontra maneiras de formar alianças e aprende a usar sabiamente recursos limitados e preciosos. É exatamente isso que faz o público torcer pelo herói. É também por isso que o DeepSeek conquistou seguidores, respeito global e adversários.

Como explicarei detalhadamente a seguir, a DeepSeek já está nesse caminho há muito tempo e gradualmente descobriu seu destino final: seu objetivo não é vender assinaturas de programação, mas impulsionar um ecossistema chinês de hardware de IA de US$ 10 trilhões e alcançar uma avaliação de US$ 1 trilhão. Nesse processo, também criará oportunidades para muitos novos entrantes no ecossistema de hardware ocidental.

Comece com alguns cálculos interessantes de KV Cache

Veja este tweet recente do @SemiAnalysis_:

DeepSeek já resolveu esse problema melhor do que qualquer um!

Vamos fazer um pouco de cálculo interessante sobre o KV Cache. Não se preocupe, mesmo que você não goste de matemática. Vamos usar a calculadora de KV Cache recentemente lançada para ver quanto de economia de KV Cache o DeepSeek V4 Pro pode trazer e compará-lo com os modelos mais recentes de GLM e Qwen.

Aqui, estou calculando com um comprimento de contexto de 1 milhão, assumindo precisão KV de 8 bits e precisão do indexador de 16 bits. Você também pode abrir esta calculadora para testar: https://kvcache.ai/tools/kv-cache-calculator/

Você também pode abrir a calculadora por conta própria para testar!

Com comprimento de contexto de 1 milhão:

·DeepSeek V4 requer apenas 5,48 GB de HBM;

·GLM-5 requer 60GB HBM;

·O Qwen3-235B-A22B requer até 89 GB de HBM.

Observe que:

·DeepSeek é um modelo de 1,6 trilhão de parâmetros;

·GLM-5 possui aproximadamente 700 bilhões de parâmetros e já adotou o MLA e o DSA do DeepSeek, mas ainda não utiliza o mecanismo de atenção comprimido mais recente;

·Qwen3-235B-A22B possui aproximadamente 235 bilhões de parâmetros e utiliza o mecanismo de atenção GQA.

DeepSeek já fez contribuições fundamentais para aliviar a pressão de memória. Se esse tipo de inovação for amplamente adotado, reduzirá significativamente os custos de operação de Agentes de longo prazo e desbloqueará a próxima onda de novos cenários de uso.

Comparação do uso de KV Cache sob 1 milhão de tokens de contexto e escalas de modelo

A metodologia por trás do "louco"

O motivo pelo qual o KV Cache consegue ser tão pequeno sem sacrificar a qualidade do modelo é que o DeepSeek pode oferecer cache de longa duração a um preço extremamente baixo — inferior a 3% do preço de acerto do cache do Sonnet 4.6 — e o DeepSeek pode manter o cache por várias horas.

Para tarefas de longo prazo, um KV Cache menor significa que pode ser descarregado de forma mais econômica para o SSD e recarregado quando necessário, reduzindo assim a dependência do HBM. Do ponto de vista da indústria chinesa de hardware de IA, o HBM não apenas apresenta escassez de fornecimento, mas também é um dos tipos de memória mais difíceis de fabricar.

Além disso, a DeepSeek desenvolveu uma tecnologia para carregar o KV Cache mais rapidamente a partir do SSD, conforme descrito em seu artigo Dual Path.

DeepSeek V4 comprime o KV Cache em uma extensão tão grande que esse passo pode nem mais ser necessário.

Então, quem se beneficia mais diretamente da compressão do KV Cache?

Quem está fornecendo em grande escala SSDs? Não se esqueça de que a YMTC (Yangtze Memory Technologies) está se tornando um gigante no campo do 3D NAND. O NAND pode ajudar o DeepSeek a evitar cálculos repetidos de KV. Por sua vez, o DeepSeek cria um enorme mercado para NAND e SSDs — o que beneficiará não apenas a Yangtze Memory, mas também outras empresas relacionadas.

No entanto, isso não se trata apenas de NAND e SSD.

A memória LPDDR também possui grande potencial. Ela pode ser usada como local para armazenar pesos de modelos e transmitir esses pesos em fluxo para o HBM conforme necessário, aliviando a pressão sobre o HBM. A equipe do SGLang publicou um excelente blog post explicando isso. A imagem abaixo ilustra como esse esquema funciona.

Embora o DeepSeek não tenha sido especificamente projetado para este plano, sua arquitetura MoE, que já possui muitos modelos especializados, e a característica de pesos de 4 bits tornam este plano mais fácil de implementar.

Este diagrama ilustra como a memória pode ser utilizada e como os pesos do modelo são transmitidos em fluxo do LPDDR para o HBM. Recomendamos fortemente que você leia o blog do SGLang.

Esta inovação, quando combinada com um KV Cache extremamente compacto e sem perdas, reduzirá significativamente a demanda por HBM.

Então, quem na China produz LPDDR? A resposta é CXMT, também conhecida como CXMT Storage. Elas estão apenas meia geração atrasadas em velocidade LPDDR e uma geração atrasadas em densidade, com uma diferença não tão grande.

Além de um suprimento adequado de NAND, o ecossistema chinês de IA terá, em breve, um suprimento suficiente de LPDDR. Isso aliviará a pressão sobre o poder de processamento? A resposta é: sim. Continue lendo.

Usar memória inteligentemente também pode aliviar a pressão sobre GPU/ASIC

Usar NAND para armazenar o KV Cache é fácil de entender: permite que o KV Cache seja mantido por mais tempo, reduzindo a pressão sobre o HBM e evitando cálculos repetidos do KV Cache, aliviando assim a carga de processamento da GPU e do ASIC.

Então, o LPDDR também poderia desempenhar um papel semelhante? Além de atuar como um local de armazenamento capaz de transmitir pesos "sob demanda em tempo real" para o HBM, ele poderia reduzir ainda mais a carga computacional?

A resposta é: sim.

LPDDR pode ser usado para armazenar grandes quantidades de conteúdo chamado Engram. No artigo da DeepSeek sobre Engram, eles afirmam que o MoE pode expandir a capacidade do modelo por meio de cálculo condicional, mas o Transformer por si só carece de um mecanismo nativo de “busca de conhecimento”. Por isso, o Transformer frequentemente precisa simular ineficientemente o processo de recuperação por meio de cálculo.

Para resolver esse problema, o DeepSeek propôs o módulo Engram. Ele moderniza o embedding clássico de N-gram, transformando-o em um mecanismo de busca O(1) baseado em hash, criando assim um caminho esparsa complementar que chamam de memória condicional (conditional memory).

Este método economiza cálculo, mas exige memória para armazenar a tabela de embedding, que pode ser muito grande.

Essencialmente, trata-se de uma abordagem típica de “trocar memória por computação”. Mas sua principal inspiração é que, em termos de custo de leitura por bit de dados, o lado da “memória” é muito mais barato — uma busca LPDDR é muito mais barata do que fazer com que os dados passem por várias camadas de Transformer para uma única inferência. Portanto, em escalas grandes, essa é uma troca extremamente vantajosa.

É assim que o DeepSeek troca parte da memória por economia de cálculo.

Compromissos que valem a pena fazer

Devido à falta de densidade de transistores de chip equivalente e da tecnologia EUV, os GPU e ASIC chineses provavelmente permanecerão a longo prazo atrás dos GPU ocidentais em poder bruto de FLOPs. Eles também ainda apresentam diferenças significativas em embalagens avançadas. Portanto, esse tipo de compromisso é muito valioso, especialmente considerando que a China pode produzir em grande escala memórias NAND e LPDDR.

Revisitar a estratégia de longo prazo do DeepSeek

A partir dessas inovações, parece que o objetivo da DeepSeek não é lucrar centenas de milhões de dólares no curto prazo. Muitas das escolhas que ela fez no passado demonstram isso: até agora, ainda não possui modelo multimodal, nem modelo de voz, muito menos modelo de vídeo.

O que ele realmente está participando é um jogo de longo prazo, paciente, com potencial de até 10 trilhões de dólares: impulsionar a formação de um ecossistema alternativo de hardware de IA.

Isso não apenas visa tornar os fabricantes chineses de memória actores-chave no mercado de hardware de IA, na China e globalmente, mas também reduzir fundamentalmente a demanda por recursos, tornando o treinamento e a prestação de serviços de modelos de IA mais eficientes em termos de custo. Assim, muitos fabricantes de GPU, ASIC e chips de rede terão a oportunidade de se tornar opções viáveis.

Ao mesmo tempo, essas inovações também beneficiarão o ecossistema de código aberto ocidental e os novos fabricantes de hardware.

Todos os indícios já surgiram. Vamos revisar detalhadamente essas inovações apresentadas pelo DeepSeek até agora:

1. O modelo misto de especialistas (MoE) e MLA introduzidos no DeepSeek V2

DeepSeek introduziu MoE e MLA na V2. O MoE reduziu em cerca de 40% a 50% a quantidade de computação necessária para treinar modelos de alta inteligência; a MLA reduziu o KV Cache em 90%.

Isso torna o descarregamento do KV Cache para o SSD bastante eficiente.

Essas ideias surgiram pela primeira vez no artigo do DeepSeek V2, lançado pela DeepSeek em maio de 2024. Posteriormente, serviram de base para o treinamento do DeepSeek V3. Na época, a DeepSeek treinou um sistema com desempenho próximo ao de modelos fechados usando apenas 2.048 GPUs H800 com desempenho reduzido.

2. DSA: Introduzido no DeepSeek V3.2 Exp para reduzir o custo computacional em cenários de contexto longo e aliviar a pressão sobre a largura de banda do HBM.

O papel central do DSA é garantir que o volume de cálculo não aumente continuamente com o comprimento do contexto. Veja o gráfico abaixo: à medida que o comprimento do contexto aumenta, o tempo de processamento do DeepSeek-V3.2 permanece essencialmente estável.

3. mHC: Proposto pelo DeepSeek em dezembro de 2025 no artigo “mHC: Manifold-Constrained Hyper-Connections”.

mHC é uma inovação do DeepSeek no nível arquitetural macro, reprojetoando a forma como a informação flui entre as camadas Transformer.

No passado, desde o ResNet, os modelos geralmente usavam conexões residuais padrão, ou seja, x + F(x). A abordagem do mHC expande o fluxo residual em múltiplos canais de informação paralelos e permite que o modelo realize misturas aprendíveis entre esses canais. O ponto-chave é que a matriz de mistura é restrita a uma matriz duplamente estocástica, ou seja, limitada ao politopo de Birkhoff por meio da projeção de Sinkhorn-Knopp. Assim, matematicamente, garante-se que, independentemente da profundidade da pilha do modelo, a amplitude do sinal permaneça estável.

Isso resolveu o problema de instabilidade catastrófica enfrentado pelas Hyper-Connections sem restrições. As Hyper-Connections foram originalmente propostas pelo ByteDance, mas sem restrições, a amplificação do sinal aumentava até 3.000 vezes em uma escala de 27 bilhões de parâmetros, levando finalmente ao colapso total do treinamento.

O custo de cálculo do mHC é muito baixo: ele adiciona apenas cerca de 6,7% de sobrecarga no tempo de treinamento real, pois não altera os FLOPs das camadas de atenção ou FFN, apenas muda a forma como as saídas dessas camadas são roteadas entre as camadas.

Mas o aumento de desempenho trazido é bastante significativo: em uma escala de 27 bilhões de parâmetros, o mHC melhora 7,2 pontos na tarefa de raciocínio BIG-Bench Hard, 3,2 pontos no DROP, 2,8 pontos na tarefa matemática GSM8K e 1,4 pontos na tarefa de conhecimento geral MMLU. Esses aumentos foram alcançados com o mesmo tamanho de modelo e orçamento de computação quase idêntico.

Essencialmente, o mHC alcança maior inteligência por parâmetro, fornecendo uma topologia de roteamento de informações entre camadas mais rica e expressiva, com quase nenhum aumento adicional de FLOPs.

mHC é um design de arquitetura complexo, mas é capaz de proporcionar um processo de treinamento mais estável e maior inteligência por parâmetro.

4, CSA, HSA: DeepSeek introduzido na V4 em abril de 2026.

O objetivo do CSA e do HSA é reduzir ainda mais 90% a necessidade de KV Cache, comprimindo o KV Token, ao mesmo tempo em que reduz significativamente os FLOPs necessários, aliviando assim a pressão sobre o HBM e os GPU/ASIC.

5. Engram: Introduzido pelo DeepSeek no primeiro trimestre de 2026, consiste essencialmente em trocar eficiência computacional por memória, ou seja, memória LPDDR.

Como mostrado no gráfico detalhado abaixo, o Engram trouxe um aumento significativo no desempenho com o mesmo orçamento total de parâmetros.

6. Engram: Introduzido pelo DeepSeek no primeiro trimestre de 2026, consiste essencialmente em trocar eficiência de cálculo por memória, ou seja, memória LPDDR.

Como mostrado no gráfico detalhado abaixo, o Engram trouxe um aumento significativo no desempenho com o mesmo orçamento total de parâmetros.

Esta é a recomendação que o DeepSeek compartilhou com fabricantes de hardware no artigo V4. Tenho certeza de que, em conversas presenciais, eles forneceram ainda mais feedback.

7. O investimento em TileLang também aponta na mesma direção: DeepSeek não está apenas resolvendo sua própria limitação de poder de processamento, mas impulsionando o ecossistema de hardware chinês a adquirir capacidade de competir com o ecossistema ocidental.

Com o TileLang, os desenvolvedores podem escrever apenas uma vez o kernel, ou seja, o código de baixo nível usado para cálculos, e fazer com que ele funcione com sucesso em várias plataformas de hardware, desde que essas plataformas já tenham suporte ao backend do TileLang correspondente.

Eu espero que outros laboratórios chineses de IA também entrem gradualmente. Isso ajudará os fabricantes chineses de hardware a lidar de forma indireta com o chamado "moat CUDA". Ao mesmo tempo, liberará mais potencial de hardware ocidental, como a AMD.

É importante observar que várias plataformas chinesas de hardware de IA já oferecem compatibilidade com CUDA ou camadas de tradução CUDA. Por exemplo, Moore Threads, Musen, BiRen e TianShu Zhixin são fabricantes chineses de chips que implementam alta compatibilidade com CUDA por meio de camadas de tradução. Portanto, teoricamente, elas não precisam necessariamente do TileLang.

Aprendizado por reforço em larga escala e RSI

À medida que o DeepSeek obtém mais fontes de poder de processamento, ou seja, mais opções de hardware, e ao mesmo tempo a própria modelagem reduz sua demanda por recursos computacionais, ele pode avançar em projetos de treinamento mais ambiciosos, especialmente no pós-treinamento por aprendizado por reforço.

O aprendizado por reforço exige a geração de grande quantidade de trajetórias, ou seja, trilhões de tokens. Esse processo torna-se extremamente caro rapidamente. Além disso, se for necessário treinar um modelo com comprimento de contexto de 1 milhão, será preciso gerar trajetórias do mesmo comprimento. Apenas treinando o modelo nesses comprimentos extremamente longos de trajetória é possível realmente suportar tarefas de longo prazo.

Além disso, com o aumento das opções de hardware, o DeepSeek terá acesso a mais recursos de hardware, o que impulsionará a pesquisa automatizada, também conhecida como RSI. RSI refere-se ao AI projetando e executando experimentos por conta própria. Esse método envolve grande quantidade de tentativas e erros, e os custos aumentam rapidamente. No entanto, a RSI é essencial para explorar todo o espaço de design de modelos. Antes de avançar em direção à AGI e, posteriormente, à ASI, o DeepSeek deve possuir a capacidade de RSI.

O que o DeepSeek faz hoje, toda a indústria seguirá amanhã

As inovações da DeepSeek em torno de modelos mistos de especialistas, MLA, DSA e outros campos já foram adotadas progressivamente por outros laboratórios de IA globais e chineses.

Por exemplo, a ZAI, desenvolvedora da série de modelos GLM, utilizou MLA e DSA. Kimi, também conhecido como Moonshot, adotou MLA e não hesitou em afirmar que sua arquitetura foi projetada com base na arquitetura DeepSeek. Por sua vez, o DeepSeek também utiliza o otimizador Muon, que foi originalmente adotado pelo Kimi (Moonshot) em treinamentos em larga escala.

É importante salientar que:

MoE foi originalmente proposto pelo Google em 2017, com o autor principal sendo Noam Shazeer. A contribuição da DeepSeek consiste em aplicar MoE em grande escala e inventar suas próprias técnicas complementares.

Muon, ou MomentUm Orthogonalized by Newton-Schulz Optimizer, foi proposto pelo pesquisador de machine learning Keller Jordan no final de 2024. A equipe Kimi (Moonshot) foi a primeira a utilizá-la em treinamento em larga escala.

E quanto à questão de ganhar dinheiro?

Podemos ver o exemplo interessante da OpenAI.

OpenAI recebeu warrants/opções para comprar ações da AMD e da Cerebras a preços mais baixos, vinculados a marcos de consumo de poder de computação. Para a AMD e a Cerebras, trata-se de um acordo extremamente vantajoso, pois, uma vez que a OpenAI se comprometa a usar seus hardwares, a probabilidade de sucesso a longo prazo delas aumenta significativamente.

AMD possui um trecho nesta declaração:

Como parte do acordo, para alinhar ainda mais os interesses estratégicos das duas partes, a AMD emitiu warrants à OpenAI para a compra de até 160 milhões de ações ordinárias da AMD, que serão liberados progressivamente conforme a realização de marcos específicos. O primeiro lote será liberado após a conclusão da implantação inicial de 1 GW, e os lotes subsequentes serão liberados à medida que a aquisição for ampliada até 6 GW. A liberação também está vinculada à atingimento de metas específicas de preço das ações da AMD, bem como à realização por parte da OpenAI dos marcos técnicos e comerciais necessários para a implantação em larga escala da AMD.

Eu prevê que a DeepSeek também celebrará acordos semelhantes com várias empresas chinesas de memória, ASIC, CPU e pilha de tecnologia de rede, e colaborará profundamente com elas para tornar a pilha de hardware dessas empresas capaz de suportar cargas de trabalho de IA líderes.

Considerando que a capitalização de mercado total das ações de IA, incluindo aliados da Ásia Oriental, já supera US$ 1 trilhão, essa abordagem de “obter retorno por meio de cooperação” permitirá que a DeepSeek ajude a China a construir uma indústria igualmente vasta e conquiste sua fatia nela, alcançando finalmente uma avaliação de US$ 1 trilhão.

Isso não apenas permitirá que o DeepSeek ganhe muito mais do que com modelos tradicionais de assinatura de aplicativos, mas também realize seu objetivo de "tornar a AGI acessível a todos". Liang Wenheng é um grande fã de Jim Simons e um jogador de capital suficientemente inteligente para não perder esse ponto.

Se você olhar para trás em tudo o que o DeepSeek fez até agora, essa é a única explicação que faz sentido.

Estas são as principais ações de IA. Os hiperscalers, ou fornecedores de nuvem em grande escala, e muitas outras empresas relacionadas ainda não estão incluídas no gráfico.

Link original