DeepSeek V4 demuestra un rendimiento estable en chips de IA nacionales

Artículo | World Model Factory

DeepSeek V4, otra vez ha conmocionado a toda China.

Tamaño del modelo, longitud del contexto, puntuación de referencia... estos indicadores técnicos han sido comparados una y otra vez en diversos informes.

Pero si solo te quedas en los datos superficiales, te pierdes el núcleo más estratégico de este lanzamiento.

Durante los últimos tres años, los modelos grandes de China siempre han estado atrapados en una realidad incómoda: el entrenamiento depende de NVIDIA y la inferencia también depende de NVIDIA; los chips nacionales solo se consideran una opción de respaldo.

Cuando NVIDIA deja de suministrar, todo el círculo de modelos en China se angustiará.

Pero hoy, DeepSeek V4 ha demostrado con su rendimiento:

Un modelo de lenguaje avanzado con billones de parámetros también puede ejecutarse de manera estable y eficiente en infraestructura de cómputo nacional.

The significance of this matter goes beyond the model's technical indicators themselves.

La ruptura de la nacionalización

Para comprender realmente la dificultad de esta adaptación a la producción nacional, primero hay que entender el imperio de chips de NVIDIA.

NVIDIA posee algo más que chips: un ecosistema completo y altamente cerrado:

En el hardware, se cuenta con la familia de chips GPU, junto con NVLink y NVSwitch para lograr una red de alta velocidad entre chips;

En el software, CUDA es el sistema operativo de IA desarrollado durante más de una década por NVIDIA.

Es como una fábrica altamente optimizada, donde desde los operadores más básicos (unidad fundamental de cálculo del modelo) hasta el cálculo paralelo, la gestión de memoria y la comunicación distribuida, toda la cadena está diseñada específicamente para las GPU de NVIDIA.

En otras palabras, NVIDIA no solo vende motores, sino que también ha reparado las carreteras, las estaciones de servicio, los talleres de mantenimiento y el sistema de navegación.

Almost all of the world's top large models have grown on this ecosystem.

Al cambiar a la capacidad de cálculo nacional, te enfrentas a una situación completamente diferente.

Diferentes arquitecturas de hardware, diferentes métodos de interconexión, distintos niveles de madurez de la pila de software y un ecosistema de herramientas que aún está avanzando rápidamente.

DeepSeek desea adaptarse a los chips nacionales, lo cual no es simplemente cambiar un motor, sino cambiar un automóvil de carreras que ya va a alta velocidad por una autopista a una montaña que aún está en construcción.

Un pequeño error puede causar vibraciones, pérdida de potencia o incluso que el vehículo no pueda avanzar.

En esta ocasión, DeepSeek V4 no optó por continuar optimizando solo a lo largo de la ruta CUDA, sino que comenzó a adaptarse simultáneamente a la pila de software de la capacidad de cómputo nacional.

Según la información pública, V4 ha logrado un avance basado en chips de inferencia nacionales, con una adaptación profunda al chip Huawei Ascend 950, y puede funcionar de forma estable en el mismo día del lanzamiento del modelo por Cambricon, logrando realmente una adaptación Day 0.

Esto significa que los modelos de vanguardia comienzan a tener la posibilidad de implementarse dentro del ecosistema de chips nacionales.

¿Cómo lo hace DeepSeek V4?

El primer paso ocurre en la capa de arquitectura del modelo.

V4 no optó por hacer que los chips nacionales soportaran directamente 1M de contexto, sino que primero hizo que el modelo mismo fuera más eficiente.

El diseño más clave en el informe técnico oficial es el mecanismo de atención híbrida CSA + HCA y optimizaciones para contextos largos como la compresión del KV Cache.

En pocas palabras, la inferencia tradicional de contexto largo hace que el modelo, al responder cada pregunta, abra y revise toda una biblioteca, agotando rápidamente la memoria VRAM, el ancho de banda y la potencia de cálculo.

La aproximación V4 consiste en volver a indexar, comprimir y filtrar los materiales de la biblioteca, enviando únicamente la información más crítica a la cadena de cálculo.

De esta manera, el contexto de 1M ya no depende completamente del poder bruto del hardware, sino que primero reduce el cálculo y el uso de memoria VRAM mediante algoritmos.

This is crucial for domestic chips.

Si el modelo sigue dependiendo en gran medida del ancho de banda de la memoria gráfica y de bibliotecas CUDA maduras, incluso si los chips nacionales pueden ejecutarlo, será difícil hacerlo de forma económica y estable.

V4 primero reduce la carga de inferencia, esencialmente aliviando la presión sobre la capacidad de cómputo nacional.

Paso dos, que ocurre en la arquitectura MoE y la capa de parámetros activados.

Aunque V4-Pro tiene un total de 1.6 billones de parámetros, solo activa aproximadamente 49 mil millones de parámetros en cada inferencia; V4-Flash tiene un total de 284 mil millones de parámetros y activa aproximadamente 13 mil millones de parámetros en cada inferencia.

Esto significa que no extrae todos los parámetros para calcularlos en cada llamada, sino que actúa como un gran equipo de expertos, donde solo se llaman a los expertos relevantes cuando llega una tarea.

Para los chips nacionales, esto también es importante.

Reduce la carga de cálculo que debe soportar cada inferencia y hace que los escenarios de contexto largo y Agent sean más fáciles de manejar por las tarjetas de inferencia.

El tercer paso es la adaptación a nivel de operadores y kernels.

La mayor fortaleza del ecosistema CUDA es que gran parte del cálculo de bajo nivel ya ha sido perfeccionado por NVIDIA, lo que permite llamar directamente muchas operaciones de cómputo de alto rendimiento.

La importancia de V4 radica en que parte de sus cálculos clave se extraen del black box de NVIDIA y se convierten en rutas de cálculo personalizadas, más transferibles y adaptables.

En términos sencillos, V4 es como desmontar las piezas más cruciales del motor para permitir que fabricantes como Huawei Ascend y Cambricon las recalibren según su propia arquitectura de chip.

Paso cuatro: marco de razonamiento y capa de servicio.

Si la adaptación de chips nacionales se limita solo a "ejecutar demos", su significado industrial es limitado. Lo realmente importante es si puede integrarse en un sistema de servicios utilizable y facturable.

Según pruebas internas, en el Ascend 950PR, la velocidad de inferencia de V4 se ha mejorado significativamente en comparación con versiones anteriores, y el consumo energético también ha disminuido notablemente; el rendimiento por tarjeta alcanza más del doble del NVIDIA H20 personalizado en escenarios específicos de baja precisión.

DeepSeek oficialmente mencionó que, actualmente, V4-Pro está limitado por la potencia de cómputo de gama alta, lo que restringe su capacidad de procesamiento, y se espera que, tras la producción masiva de los supernodos Ascend 950 en la segunda mitad del año, los precios se reduzcan significativamente.

Esto indica que, con la producción en masa de hardware nacional como Ascend, el rendimiento y la relación calidad-precio de V4 seguirán optimizándose.

Sin embargo, es importante destacar que V4 no ha reemplazado por completo las GPU y CUDA de NVIDIA. El entrenamiento de modelos aún puede depender de NVIDIA, pero la inferencia ya puede ir siendo nacionalizada progresivamente.

Esta es en realidad una ruta comercial muy realista.

El entrenamiento es una inversión por etapas: se entrena una vez, se ajusta una vez y se itera una vez. La inferencia es un costo continuo: millones o miles de millones de llamadas diarias de usuarios, cada una requiere poder de cómputo.

El mayor gasto de las empresas de modelos se inclinará cada vez más hacia la inferencia a largo plazo. Quien pueda atender la demanda de inferencia de forma más económica y estable obtendrá una ventaja real en las aplicaciones industriales.

DeepSeek V4 por primera vez permitió una ruta de implementación de inferencia para modelos avanzados de China que no parte del supuesto predeterminado de NVIDIA CUDA.

Este paso ya es lo suficientemente significativo.

Impacto de V4 en la aplicación industrial

Si la adaptación de los chips nacionales responde a la pregunta de si pueden funcionar, entonces el precio responde a otra pregunta más realista:

¿Se lo pueden permitir las empresas?

Lo más impresionante de DeepSeek en el pasado era su capacidad para reducir drásticamente el precio de modelos con habilidades cercanas a la vanguardia.

Así era en la era V3 y R1, y así sigue siendo en V4.

La diferencia es que, esta vez, no está librando una guerra de precios en una ventana de contexto normal, sino que continúa reduciendo precios bajo un contexto de 1M y capacidades de Agent.

Según el precio oficial de DeepSeek:

V4-Flash: entrada con acierto en caché 0.2 yuanes por millón de tokens, entrada sin acierto en caché 1 yuan por millón de tokens, salida 2 yuanes por millón de tokens;

La entrada con acierto en caché de V4-Pro es de 1 yuan por millón de tokens, la entrada sin acierto en caché es de 12 yuanes por millón de tokens, y la salida es de 24 yuanes por millón de tokens.

Póngalo en comparación con otros modelos nacionales similares:

En comparación con Alibaba Qwen3.6-Plus en la gama de 256K-1M, el precio de salida de V4-Pro es aproximadamente la mitad, y V4-Flash es aún menor.

En comparación con la serie Xiaomi MiMo Pro en el rango de 256K-1M, tanto V4-Flash como V4-Pro son significativamente más baratos.

El contexto de Kimi K2.6 es de 256K; en comparación, V4-Pro tiene un contexto más largo y un precio más bajo; V4-Flash reduce directamente el costo de llamadas frecuentes a otro nivel.

This has great significance for enterprise applications.

Debido a un contexto de 1M, el modelo puede leer completamente un repositorio de código, paquetes de contratos extensos, prospectos de cientos de páginas, actas de reuniones prolongadas o el estado histórico acumulado durante la ejecución continua de tareas por un Agente.

Muchas empresas antes se quedaron atascadas aquí: la capacidad del modelo era suficiente, pero el contexto no; el contexto era suficiente, pero el precio era demasiado alto; el precio era aceptable, pero la capacidad del modelo no era lo suficientemente estable.

Por ejemplo, una empresa que desarrolla un agente de investigación y análisis debe hacer que el modelo lea simultáneamente los informes anuales de la empresa, las llamadas de resultados financieros, los informes del sector, las noticias sobre la competencia y las actas internas.

Cuando el contexto es solo de 128K o 256K, el sistema a menudo debe recortar, recuperar y resumir constantemente, lo que provoca la pérdida de información durante múltiples compresiones.

Un contexto de 1M permite que el modelo conserve más material original, reduciendo omisiones y fragmentos.

Por ejemplo, el agente de código.

No se trata de escribir unas pocas líneas de código de una vez, sino de leer el repositorio, comprender las dependencias, modificar archivos, ejecutar pruebas y corregir errores según los mensajes de error. Este proceso consume tokens repetidamente.

Si cada paso es muy costoso, el agente solo podrá realizar demostraciones, pero si los tokens son lo suficientemente baratos, podrá ingresar al proceso real de investigación y desarrollo.

Este es también el valor industrial de V4.

No necesariamente es el modelo más potente, pero podría convertirse en el más utilizado por las empresas.

DeepSeek vuelve a transformar la IA de un juguete exclusivo de pocas grandes empresas en una herramienta de productividad que puede implementarse a gran escala en múltiples industrias.

El verdadero valor de V4

Cuando el contexto de 1M llega a la línea de producción a un precio extremadamente bajo, realmente se revela el verdadero valor de DeepSeek V4.

Todo esto se basa en una infraestructura de capacidad de cómputo nacional aún inmadura.

Ante la brecha sistémica en el ecosistema de chips nacionales, el equipo de DeepSeek no optó por esperar a que el ecosistema madurara antes de lanzarse.

Retrasaron repetidamente la ventana de lanzamiento y dedicaron meses a realizar pruebas conjuntas profundas con socios como Huawei, una complejidad técnica que supera con creces lo que la gente puede imaginar.

Por eso, lograr en la capacidad de cálculo nacional un rendimiento de inferencia y agentes casi igual al de los modelos cerrados de élite, es especialmente difícil.

V4 demuestra por sí mismo que, incluso frente a las brechas temporales en el ecosistema de hardware, el equipo chino puede lograr un rendimiento competitivo mediante una inversión extrema en ingeniería y una innovación integrada de software y hardware.

Of course, there is still a gap to full maturity.

La madurez de la cadena de herramientas de la plataforma Ascend, la estabilidad de los clústeres de superescala y la optimización profunda en más escenarios verticales requieren esfuerzos continuos de todas las partes de la industria.

Pero el éxito de V4 ha trazado un camino aprovechable para los modelos posteriores.

Inyecta un impulso fuerte para la autonomía y el control de toda la cadena de suministro de IA.

En un entorno externo lleno de incertidumbre, esta resiliencia que logra superar limitaciones es más digna de respeto que simples indicadores de parámetros.

No te seduzcas por la alabanza, no te aterres por la difamación; sigue el camino con rectitud y mantén tu integridad.

Esta frase del oficial de DeepSeek es precisamente el mejor complemento para ello.