La estrategia de DeepSeek: Construir un ecosistema de hardware de IA de $10 billones

La gran estrategia de 10 billones de USD de DeepSeek

Autor original: @bookwormengr

Peggy, BlockBeats

Nota del editor: Durante el último año, la discusión sobre DeepSeek se ha centrado principalmente en el rendimiento del modelo, la estrategia de código abierto y la guerra de precios. Pero comprender a DeepSeek únicamente desde la perspectiva de «si vende suscripciones», «si tiene multimodalidad» o «si puede actuar como agente de programación» podría subestimar lo que realmente busca cambiar.

Este artículo plantea un juicio más radical: el objetivo de DeepSeek no necesariamente es monetizar a corto plazo a través de la capa de aplicaciones, sino transformar la estructura de costos del entrenamiento y la inferencia de IA mediante una serie de innovaciones en arquitecturas subyacentes, impulsando indirectamente la formación de un nuevo ecosistema de hardware. Desde MoE, MLA hasta DSA, CSA, mHC, Engram, y luego Dual Path y TileLang, la línea tecnológica de DeepSeek siempre gira en torno a una pregunta central: ¿cómo lograr modelos más potentes con menos capacidad de cómputo de gama alta, dado que se encuentran limitados por HBM, procesos avanzados, empaquetado y el ecosistema CUDA?

Lo más relevante en este artículo no es si «DeepSeek puede generar cientos de millones de dólares mediante API o suscripciones», sino si está vinculando las capacidades del modelo, el sistema de memoria y el ecosistema de hardware nacional. La compresión del KV Cache reduce la dependencia de la HBM, el NAND y los SSD pueden manejar cachés prolongadas, la LPDDR puede utilizarse para la carga en flujo de pesos y el almacenamiento de Engrams, y TileLang intenta debilitar la ventaja competitiva de CUDA. Si estas innovaciones continúan propagándose, los beneficiarios no serán solo DeepSeek en sí, sino también el almacenamiento, los ASIC, las GPU, los chips de red y toda la cadena de infraestructura de IA.

Por supuesto, las afirmaciones sobre un "ecosistema industrial de 10 billones de dólares" y una "valoración de 1 billón de dólares" aún tienen un fuerte componente de especulación. Pero ofrecen una vía importante para comprender a DeepSeek: el código abierto no implica necesariamente renunciar a la comercialización, y los precios bajos no son solo una subvención para el mercado. Para DeepSeek, el verdadero negocio podría no estar en la capa de aplicaciones, sino en hacer que más hardware sea utilizable y permitir una oferta de IA de costos más bajos. En otras palabras, lo que vende quizás no sea el modelo en sí, sino la viabilidad de la próxima generación de infraestructura de IA.

The following is the original text:

¿Te has preguntado cómo puede ganar dinero DeepSeek, y posiblemente mucho dinero?

No ha lanzado un plan de suscripción competitivo para programación como GLM, MoonShot y MiniMax; tampoco cuenta con modelos multimodales, de audio o video. Hasta ahora, ni siquiera tiene su propio harness, es decir, el marco externo para llamadas a modelos, integración de herramientas y ejecución de tareas—aunque recientemente han comenzado a contratar personal para desarrollar este sistema.

Al mismo tiempo, DeepSeek parece haberse mantenido firmemente a favor del código abierto, e incluso está dispuesta a compartir públicamente sus propios «secretos». ¿No es esto una locura? ¿No es simplemente quemar dinero? ¿Acaso los inversores que planean invertir 10.000 millones de dólares en ella están lanzando su dinero por el inodoro?

Personalmente, creo que la respuesta es exactamente lo contrario.

A continuación, basándome en lo que DeepSeek ha hecho hasta ahora, haré algunas observaciones y analizaré la estrategia que parece estar siguiendo. El objetivo del CEO de DeepSeek, Liang Wenhong, probablemente va mucho más allá de la competencia actual entre modelos. Quizás esté apuntando a un premio mucho mayor: DeepSeek tiene la oportunidad de alcanzar una valoración de 1 billón de dólares, al mismo tiempo que impulsa la formación de una nueva industria de 10 billones de dólares.

TechInAsia sobre la última ronda de financiación de DeepSeek

Revisitar el «viaje del héroe» de DeepSeek

DeepSeek ha seguido avanzando contra la corriente. En lugar de lanzar constantemente modelos ligeramente más potentes y apresurarse a convertirlos en aplicaciones directamente rentables, como suscripciones de programación, eligió otro camino. El 27 de enero de 2025, publiqué un tweet muy compartido sobre lo que yo veía como el «viaje del héroe» de DeepSeek. Hoy, esta historia se ha vuelto aún más interesante.

Mientras otros aún intentan construir modelos densos, DeepSeek optó por modelos de mezcla de expertos (Mixture of Experts, MoE), más difíciles de entrenar.

Utilizaron un enfoque de «primeros principios» para desarrollar el nuevo algoritmo GRPO, que reemplaza al algoritmo de aprendizaje por refuerzo PPO, entonces dominante pero más costoso de implementar.

Descubrieron que el aprendizaje por refuerzo a partir de recompensas verificadas (Reinforcement Learning from Verified Rewards, RLVR) es la estrategia clave para mejorar la capacidad de razonamiento del modelo.

También propusieron una estrategia simple de decodificación por suposición mediante «Predicción de múltiples tokens» (Multi Token Prediction), lo que también hace que las señales de entrenamiento sean más densas.

Optimizaron la línea de producción «ZERO bubble» para mejorar la eficiencia en el uso de recursos GPU limitados.

Han lanzado un balanceador de carga para expertos, facilitando a todos la implementación de modelos MoE. Especialmente mediante la estrategia de «Paralelismo de Expertos Amplios» (Wide Expert Parallel), los modelos pueden servirse con lotes más grandes, reduciendo significativamente el costo de inferencia.

Desarrollaron mecanismos como MLA, DSA, CSA y HCA para reducir la necesidad de KV Cache y mantener el aumento en la demanda de cálculo, conforme crece la longitud del contexto, lo más cerca posible de un valor constante.

They invented Engram, trading memory for computational efficiency.

También inventaron mHC, lo que permite un entrenamiento estable incluso al aumentar el tamaño del modelo. Hay muchos otros ejemplos similares.

En la estructura narrativa más común, la "jornada del héroe", el héroe nunca decide desde el principio hacia dónde conducirá su viaje. Aprendiendo a lo largo del camino, descubre gradualmente su verdadera misión grandiosa y la cumple a pesar de numerosos obstáculos. Se encuentra con muchos escépticos, pero elige ignorarlos. También se enfrenta a muchos actores malintencionados. Tiene defectos o debilidades evidentes, pero finalmente supera estos problemas y cumple su misión. Enfrenta desafíos que parecen insuperables, pero encuentra formas de aliarse y aprende a utilizar sabiamente recursos limitados y valiosos. Es precisamente esto lo que hace que la audiencia apoye al héroe. También es por esto que DeepSeek ha ganado seguidores, respeto global y opositores.

Como explicaré con más detalle a continuación, DeepSeek ha estado recorriendo este camino durante mucho tiempo y ha ido descubriendo poco a poco su destino final: su objetivo no es vender suscripciones de programación, sino impulsar un ecosistema chino de hardware de IA de 10 billones de dólares y alcanzar una valoración de 1 billón de dólares. En este proceso, también creará oportunidades para muchos nuevos participantes en el ecosistema de hardware occidental.

Comencemos con algunos cálculos interesantes de KV Cache

Mira este tweet reciente de @SemiAnalysis_:

DeepSeek ya ha resuelto este problema mejor que nadie más.

Primero, hagamos un poco de cálculo interesante sobre KV Cache. No te preocupes, incluso si no te gusta las matemáticas. Usaremos la calculadora de KV Cache recién lanzada para ver cuánto ahorro de KV Cache ofrece DeepSeek V4 Pro y compararlo con los modelos más recientes de GLM y Qwen.

Aquí calculo con una longitud de contexto de 1 millón, asumiendo una precisión KV de 8 bits y una precisión del indexador de 16 bits. También puedes abrir tú mismo esta calculadora: https://kvcache.ai/tools/kv-cache-calculator/

¡También puedes abrir la calculadora tú mismo para probarlo!

Con una longitud de contexto de 1 millón:

·DeepSeek V4 solo requiere 5.48 GB de HBM;

·GLM-5 requiere 60 GB de HBM;

·Qwen3-235B-A22B requiere hasta 89 GB de HBM.

Tenga en cuenta que:

·DeepSeek es un modelo de 1,6 billones de parámetros;

·GLM-5 tiene aproximadamente 700 mil millones de parámetros y ya ha adoptado MLA y DSA de DeepSeek, pero aún no utiliza el mecanismo de atención comprimida más reciente;

Qwen3-235B-A22B tiene aproximadamente 235 mil millones de parámetros y utiliza el mecanismo de atención GQA.

DeepSeek ha realizado contribuciones fundamentales para aliviar la presión de memoria. Si este tipo de innovaciones se adoptan ampliamente, reducirá significativamente el costo de operación de los Agentes de larga duración y desbloqueará la próxima ola de nuevos escenarios de aplicación.

Comparación del uso de KV Cache con 1 millón de tokens de contexto y escalas de modelo

La metodología detrás de la "locura"

La razón por la que el tamaño del KV Cache puede ser tan pequeño sin sacrificar la calidad del modelo es que DeepSeek puede ofrecer caché de larga duración a un precio extremadamente bajo: incluso menos del 3% del precio de caché de Sonnet 4.6, y DeepSeek puede mantener el caché durante varias horas.

Para tareas de largo plazo, un KV Cache más pequeño significa que se puede descargar de forma más económica a un SSD y recargarlo cuando sea necesario, reduciendo así la dependencia del HBM. Desde la perspectiva de la industria china de hardware de IA, el HBM no solo tiene una oferta limitada, sino que también es uno de los tipos de memoria más difíciles de fabricar.

Además, DeepSeek ha desarrollado una tecnología para cargar el KV Cache más rápidamente desde SSD, como se describe en su artículo Dual Path.

DeepSeek V4 comprime el KV Cache en una medida tan grande que este paso podría incluso ya no ser necesario.

Entonces, ¿quién se beneficia más directamente de la compresión del KV Cache?

¿Quién está suministrando en grandes cantidades SSD? No olviden que YMTC (Yangtze Memory Technologies) está emergiendo como un gigante en el campo de 3D NAND. El NAND puede ayudar a DeepSeek a evitar cálculos repetitivos de KV. A su vez, DeepSeek crea un mercado enorme para NAND y SSD, lo que beneficiará no solo a Yangtze Memory Technologies, sino también a otros fabricantes relacionados.

Sin embargo, esto no se trata solo de NAND y SSD.

La memoria LPDDR también tiene un gran potencial. Puede utilizarse como almacenamiento para los pesos del modelo y transmitir estos pesos en streaming a la HBM cuando sea necesario, aliviando así la presión sobre la HBM. El equipo de SGLang publicó un excelente blog que explica esto. La siguiente imagen muestra cómo funciona esta solución.

Aunque DeepSeek no fue diseñado específicamente para este方案, su arquitectura MoE, la gran cantidad de modelos expertos que posee y la característica de pesos de 4 bits facilitan la implementación de esta solución.

Este diagrama muestra cómo podría utilizarse la memoria y cómo los pesos del modelo se transmiten en flujo desde LPDDR a HBM. Se recomienda encarecidamente leer el blog de SGLang.

Esta innovación, si se combina con una caché KV extremadamente compacta y sin pérdidas, reducirá significativamente la demanda de HBM.

Entonces, ¿quién en China produce LPDDR? La respuesta es CXMT, es decir, ChangXin Memory Technologies. Están solo media generación atrás en velocidad LPDDR y una generación atrás en densidad, una diferencia que no es muy grande.

Además de un suministro suficiente de NAND, el ecosistema chino de IA tendrá, en un futuro cercano, un suministro suficiente de LPDDR. ¿Esto aliviará la presión de cálculo? La respuesta es: sí. Sigue leyendo.

El uso inteligente de la memoria también puede aliviar la carga de la GPU / ASIC

Usar NAND para almacenar el KV Cache es fácil de entender: permite que el KV Cache se mantenga durante más tiempo, reduce la presión sobre el HBM y evita el cálculo repetitivo del KV Cache, aliviando así la carga de cálculo en la GPU y el ASIC.

Entonces, ¿podría LPDDR desempeñar un papel similar? Además de actuar como una ubicación de almacenamiento desde la cual se pueden transmitir los pesos «a la demanda y en tiempo real» a HBM, ¿podría reducir aún más la carga de cálculo?

La respuesta es: sí.

LPDDR puede usarse para almacenar grandes cantidades de contenido llamado Engram. En el artículo de DeepSeek sobre Engram, indican que MoE puede expandir la capacidad del modelo mediante cálculo condicional, pero Transformer carece de un mecanismo nativo de «búsqueda de conocimiento». Por lo tanto, Transformer a menudo debe simular ineficientemente el proceso de recuperación mediante cálculo.

Para resolver este problema, DeepSeek propuso el módulo Engram. Moderniza el embedding clásico de N-grama convirtiéndolo en un mecanismo de búsqueda O(1) basado en hash, creando así una ruta de esparsificación complementaria que denominan memoria condicional (conditional memory).

Este método ahorra cálculo, pero requiere memoria para alojar la tabla de embedding, que puede ser extremadamente grande.

En esencia, se trata de un enfoque típico de «intercambiar memoria por cálculo». Pero su insight clave radica en que, desde el punto de vista del costo de lectura por bit de datos, el lado de la «memoria» es mucho más barato: una búsqueda de LPDDR es mucho más económica que hacer que los datos atraviesen completamente múltiples capas de Transformer para realizar un solo cálculo hacia adelante. Por lo tanto, en escenarios a gran escala, este intercambio es muy ventajoso.

Esto es cómo DeepSeek sacrifica parte de la memoria para obtener ahorros en cómputo.

Compromisos que valen la pena

Debido a la falta de densidad de transistores en chips equivalente y de EUV, los GPU y ASIC chinos probablemente se queden atrás a largo plazo en capacidad de FLOPs brutos en comparación con los GPU occidentales. También siguen teniendo una brecha significativa en empaquetado avanzado. Por lo tanto, este tipo de compromiso es muy valioso, especialmente dado que China puede producir en gran cantidad memoria NAND y LPDDR.

Revisar la estrategia a largo plazo de DeepSeek

Desde estas innovaciones, parece que el objetivo de DeepSeek no es ganar cientos de millones de dólares en beneficios en este momento. Muchas de las decisiones que ha tomado en el pasado lo demuestran: hasta ahora no tiene modelo multimodal, ni modelo de voz, y mucho menos modelo de video.

Lo que realmente está participando es un juego a largo plazo, paciente, que podría alcanzar un tamaño de 10 billones de dólares: impulsar la formación de un ecosistema alternativo de hardware de IA.

Esto no solo busca hacer que los fabricantes chinos de memoria se conviertan en actores clave en el mercado de hardware de IA, tanto en China como a nivel global, sino también reducir fundamentalmente la demanda de recursos para que el entrenamiento y la prestación de modelos de IA sean más rentables. De esta manera, numerosos fabricantes de GPU, ASIC y chips de red tienen la oportunidad de convertirse en opciones viables.

Meanwhile, these innovations will also benefit the Western open-source ecosystem and the new generation of hardware manufacturers.

Todas las señales ya han aparecido. Repasemos en detalle estas innovaciones presentadas por DeepSeek hasta ahora:

1. El modelo mixto de expertos (MoE) y MLA introducidos en DeepSeek V2

DeepSeek introdujo MoE y MLA en V2. MoE reduce el cálculo necesario para entrenar modelos de alta inteligencia en aproximadamente un 40% a 50%; MLA reduce el KV Cache en un 90%.

Esto hace que descargar el KV Cache al SSD sea bastante eficiente.

Estas ideas aparecieron por primera vez en el artículo de DeepSeek V2 publicado por DeepSeek en mayo de 2024. Más tarde, también sentaron las bases para el entrenamiento de DeepSeek V3. En ese momento, DeepSeek entrenó un sistema con un rendimiento cercano al de modelos cerrados utilizando solo 2048 GPU H800 con rendimiento reducido.

2. DSA: Introducido en DeepSeek V3.2 Exp para reducir el costo de cálculo en escenarios de contexto largo y aliviar la presión sobre el ancho de banda de HBM.

El papel fundamental de DSA es garantizar que la cantidad de cálculo no aumente continuamente con la longitud del contexto. Puedes ver el siguiente gráfico: a medida que aumenta la longitud del contexto, el tiempo de procesamiento de DeepSeek-V3.2 se mantiene básicamente estable.

3. mHC: Propuesto por DeepSeek en el artículo “mHC: Manifold-Constrained Hyper-Connections” en diciembre de 2025.

mHC es una innovación de DeepSeek a nivel de arquitectura macro, que rediseña la forma en que fluye la información entre las capas Transformer.

En el pasado, desde ResNet, los modelos generalmente utilizaban conexiones residuales estándar, es decir, x + F(x). El enfoque de mHC consiste en expandir el flujo residual en múltiples canales de información paralelos y permitir que el modelo realice mezclas aprendibles entre estos canales. Lo clave es que restringe la matriz de mezcla a una matriz doblemente estocástica, limitándola al politopo de Birkhoff mediante la proyección de Sinkhorn-Knopp. De esta manera, matemáticamente se garantiza que, independientemente de cuán profundo sea el modelo, la amplitud de la señal se mantenga estable.

Esto resuelve el problema de inestabilidad catastrófica que enfrentaban las Hyper-Connections sin restricciones. Las Hyper-Connections fueron propuestas originalmente por ByteDance, pero sin restricciones, la amplificación de la señal aumentaba hasta 3000 veces en una escala de 27 mil millones de parámetros, provocando finalmente el colapso total del entrenamiento.

El costo de cálculo de mHC es muy bajo: solo introduce una sobrecarga de tiempo de entrenamiento real del 6.7%, ya que no altera los FLOPs de las capas de atención ni de FFN, sino que solo cambia la forma en que se enrutan las salidas de estas capas entre capas.

Pero el aumento de rendimiento es bastante notable: con un tamaño de 27 mil millones de parámetros, mHC mejora 7.2 puntos en las tareas de razonamiento BIG-Bench Hard, 3.2 puntos en DROP, 2.8 puntos en la tarea matemática GSM8K y 1.4 puntos en la tarea de conocimiento general MMLU. Estas mejoras se logran con el mismo tamaño de modelo y un presupuesto de cálculo casi idéntico.

En esencia, mHC logra una inteligencia por parámetro más alta, proporcionando una topología de enrutamiento de información entre capas más rica y expresiva, con un aumento casi nulo en FLOPs adicionales.

mHC es un diseño de arquitectura complejo, pero permite un proceso de entrenamiento más estable y una mayor inteligencia por parámetro.

4, CSA, HSA: DeepSeek introducido en V4 en abril de 2026.

El objetivo de CSA y HSA es reducir aún más la demanda de KV Cache en un 90 % comprimiendo los tokens KV, al mismo tiempo que reduce significativamente los FLOPs necesarios, aliviando así la presión sobre el HBM y los GPU/ASIC.

5. Engram: DeepSeek lo introducirá en el primer trimestre de 2026, intercambiando eficiencia de cálculo por memoria, es decir, memoria LPDDR.

Como se muestra en el gráfico detallado a continuación, Engram ofrece una mejora significativa en el rendimiento con el mismo presupuesto de parámetros totales.

6. Engram: Introducido por DeepSeek en el primer trimestre de 2026, consiste esencialmente en intercambiar eficiencia de cálculo por memoria, es decir, memoria LPDDR.

Como se muestra en el gráfico detallado a continuación, Engram ofrece una mejora significativa en el rendimiento con el mismo presupuesto de parámetros totales.

Esta es la recomendación que DeepSeek compartió con los fabricantes de hardware en el artículo V4. Estoy seguro de que, en las interacciones presenciales, sus comentarios fueron aún más numerosos.

7. La inversión en TileLang también apunta en la misma dirección: DeepSeek no solo está resolviendo sus propios cuellos de botella de capacidad de cómputo, sino que está impulsando que el ecosistema de hardware chino adquiera la capacidad de competir con el ecosistema occidental.

Con TileLang, los desarrolladores pueden escribir una vez solo el kernel, es decir, el código de bajo nivel utilizado para el cálculo, y hacer que funcione exitosamente en múltiples plataformas de hardware, siempre que estas tengan soporte de backend para TileLang.

Espero que otros laboratorios de IA chinos también se unan progresivamente. Esto ayudará a los fabricantes de hardware chinos a abordar de manera indirecta lo que se conoce como el "foso de CUDA". Al mismo tiempo, liberará más potencial de hardware occidental, como AMD.

Cabe señalar que varias plataformas chinas de hardware de IA ya ofrecen compatibilidad con CUDA o capas de traducción de CUDA. Por ejemplo, Moore Threads, Moxi, BiRen y TianShu Intelligence son fabricantes chinos de chips que logran una alta compatibilidad con CUDA mediante capas de traducción. Por lo tanto, teóricamente, no necesitan necesariamente TileLang.

Aprende a usar el aprendizaje por refuerzo a gran escala y el RSI

A medida que DeepSeek obtiene más fuentes de poder de cómputo, es decir, más opciones de hardware, y al mismo tiempo la demanda del modelo mismo de recursos de cómputo disminuye, puede avanzar en proyectos de entrenamiento más ambiciosos, especialmente en el entrenamiento posterior con aprendizaje por refuerzo.

El aprendizaje por refuerzo requiere generar una gran cantidad de trayectorias, es decir, miles de millones de tokens. Este proceso se vuelve extremadamente costoso rápidamente. Además, si se desea entrenar un modelo con una longitud de contexto de un millón, se necesitan trayectorias de la misma longitud. Solo entrenando el modelo en estas trayectorias ultra largas se puede realmente admitir tareas de largo plazo.

Además, al aumentar las opciones de hardware, DeepSeek tendrá acceso a más recursos de hardware, lo que impulsará la investigación automatizada, también conocida como RSI. RSI se refiere a que la IA diseña y ejecuta experimentos por sí misma. Este enfoque implicará una gran cantidad de prueba y error, y los costos aumentarán rápidamente. Sin embargo, la RSI es esencial para explorar el espacio completo de diseño de modelos. Antes de avanzar hacia la AGI y, posteriormente, hacia la ASI, DeepSeek debe poseer la capacidad de RSI.

Lo que DeepSeek hace hoy, toda la industria lo seguirá mañana

Las innovaciones de DeepSeek en torno a modelos mixtos de expertos, MLA, DSA y otros aspectos han sido adoptadas progresivamente por otros laboratorios de IA a nivel global y en China.

Por ejemplo, ZAI, el desarrollador de la serie de modelos GLM, utiliza MLA y DSA. Kimi, también conocido como Moonshot, también adopta MLA y no oculta que su arquitectura está basada en la arquitectura de DeepSeek. A su vez, DeepSeek utiliza el optimizador Muon, que fue originalmente adoptado por Kimi (Moonshot) en entrenamientos a gran escala.

Se debe señalar que:

MoE fue propuesto por primera vez por Google en 2017, con Noam Shazeer como autor clave. La contribución de DeepSeek consiste en aplicar MoE a gran escala e inventar sus propias técnicas complementarias.

Muon, el optimizador MomentUm Orthogonalized by Newton-Schulz, fue propuesto a finales de 2024 por el investigador de aprendizaje automático Keller Jordan. El equipo de Kimi (Moonshot) fue el primero en utilizarlo para entrenamiento a gran escala.

¿Qué pasa con el problema de ganar dinero?

Podemos ver el interesante ejemplo de OpenAI.

OpenAI obtuvo warrants/opciones para comprar acciones de AMD y Cerebras a precios más bajos, vinculados a hitos de consumo de potencia de cómputo. Para AMD y Cerebras, esta es una transacción muy favorable, ya que una vez que OpenAI se comprometa a utilizar su hardware, la probabilidad de su éxito a largo plazo aumenta significativamente.

En el anuncio de AMD hay un párrafo que dice:

Como parte del acuerdo, para coordinar aún más los intereses estratégicos de ambas partes, AMD emitió a OpenAI warrants para comprar hasta 160 millones de acciones ordinarias de AMD, que se irán ejerciendo progresivamente según el cumplimiento de hitos específicos. El primer lote se ejercerá al completar la implementación inicial de 1 gigavatio, y los lotes posteriores se irán ejerciendo a medida que las compras aumenten hasta 6 gigavatios. Los criterios de ejercicio también están vinculados a que AMD alcance objetivos específicos de precio de acción, y a que OpenAI logre los hitos técnicos y comerciales necesarios para la implementación a gran escala de AMD.

Espero que DeepSeek también llegue a acuerdos similares con múltiples fabricantes chinos de memoria, ASIC, CPU y pilas de tecnología de red, y colabore profundamente con ellos para que sus pilas de hardware puedan manejar cargas de trabajo de IA líderes.

Dado que la capitalización bursátil total de las acciones de IA, incluidos todos los aliados occidentales y de Asia Oriental, ya supera los 10 billones de dólares, este enfoque de «obtener retornos de acciones a través de la cooperación» permitirá a DeepSeek ayudar a China a construir una industria igualmente enorme y obtener su parte, logrando finalmente una valoración de 1 billón de dólares.

Esto no solo permitirá a DeepSeek ganar mucho más dinero que con los modelos de suscripción de aplicaciones tradicionales, sino que también logrará su objetivo de «hacer que la IAG beneficie a todos». Liang Wenhong es un gran admirador de Jim Simons y un jugador de capital lo suficientemente inteligente como para no pasar por alto esto.

Si miras atrás en todo lo que DeepSeek ha hecho hasta ahora, solo hay una explicación que tiene sentido.

Estas son las acciones clave de IA. Los hiperscalers, es decir, los grandes proveedores de nube, y muchas otras empresas relacionadas aún no están incluidas en la gráfica.

Enlace original