DeepSeek V4 y Meituan LongCat 2.0 superan la barrera del billón de parámetros

Las empresas de IA en el país comienzan a intentar establecer su propio camino.

Al inicio de este año, el sector tecnológico internacional ha estado prestando atención al problema de la potencia de cálculo en China.

En enero, Musk declaró en un podcast que China superará con creces al resto del mundo en capacidad de IA. En febrero, el CEO de OpenAI, Altman, dijo que el progreso tecnológico de China en inteligencia artificial es «asombrosamente rápido». El CEO de NVIDIA, Jensen Huang, también ha expresado públicamente en varias ocasiones: «Restringir la tecnología de IA de China solo acelerará su desarrollo autónomo».

El año 2025 puede considerarse el año de la consolidación en el lado de la oferta. GPU nacionales como Moore Threads y Muxi Semiconductor han ingresado sucesivamente al mercado de capitales, profundizando aún más la base industrial de los grandes modelos nacionales. En 2026, los cambios se transmiten hacia la parte aguas abajo de la cadena de suministro, y a finales de abril se lanzaron nuevas versiones de varios grandes modelos nacionales.

El 20 de abril, Moonshot lanzó el modelo Kimi K2.6, especializado en programación de larga duración; el 24 de abril, se lanzó DeepSeek V4; posteriormente,美团 abrió la prueba de LongCat-2.0-Preview, ambos con un tamaño total de parámetros que supera los billones y ambos admiten contextos superiores a 1M.

Es importante destacar que DeepSeek V4 completó la migración y adaptación desde la arquitectura NVIDIA hacia la plataforma Huawei Ascend; mientras que LongCat2.0 de Meituan es un modelo de lenguaje de un billón de parámetros cuyo entrenamiento e inferencia se realizaron completamente con capacidad de cómputo nacional, utilizando entre 50.000 y 60.000 chips de cómputo nacional.

Durante mucho tiempo, los profesionales de la IA en China adoptaron generalmente la estrategia de aprovechar soluciones maduras ya existentes. Ahora, las empresas de IA nacionales comienzan a intentar trazar su propio camino.

Construir caminos en la selva

¿Cómo completas una tarea difícil?

La respuesta del escritor de ciencia ficción Arthur C. Clarke es: "La única manera es hacer que lo imposible sea el punto de partida para avanzar."

DeepSeek V4, desde su programación inicial hasta su lanzamiento final, sufrió múltiples ajustes de fecha. Ampliamente se especula que una de las razones fue la necesidad de migrar el código principal fuera de CUDA de NVIDIA.

El ecosistema CUDA, tras décadas de perfeccionamiento, es una plataforma de desarrollo potente y bien equipada con herramientas. El ecosistema de capacidad de cómputo nacional aún se encuentra en una etapa inicial de construcción. El proceso de migración de código implica que el equipo de desarrollo deba realizar una gran cantidad de reestructuraciones en los marcos subyacentes.

Finalmente, DeepSeek lo logró: dos días después del lanzamiento de V4, JPMorgan señaló en un informe que V4 se adaptó exitosamente a los chips Ascend de Huawei, validando la viabilidad de la capacidad de cómputo nacional en inferencia de IA de vanguardia; además, DeepSeek redujo significativamente los costos de inferencia mediante innovaciones técnicas en la arquitectura de atención híbrida y otras mejoras fundamentales.

DeepSeek reduce cost y aumenta la eficiencia de manera técnica, completando una migración intensa reescribiendo la mitad del trabajo de un modelo grande. Al mismo día,美团 LongCat-2.0-Preview, que se ejecuta directamente sobre infraestructura de cómputo nacional.

¿Cuáles son los desafíos técnicos de la capacidad de cómputo nacional en términos de ingeniería? Tomemos como ejemplo LongCat-2.0-Preview.

El primer desafío es de naturaleza física. La capacidad y el ancho de banda de la memoria de video de la infraestructura nacional difieren de los chips de NVIDIA; al entrenar y desplegar modelos con billones de parámetros, el equipo de Meituan enfrentó importantes desafíos técnicos, requiriendo un mayor esfuerzo para ajustar las estrategias de paralelización y optimizar la memoria de video.

La segunda dificultad es la madurez del ecosistema de software; para adaptarse a las características de los chips nacionales y garantizar la precisión y reproducibilidad durante todo el proceso de entrenamiento, el equipo necesita reescribir y optimizar los operadores centrales, así como desarrollar por cuenta propia operadores completamente deterministas.

La tercera dificultad es la estabilidad del clúster de diez mil tarjetas; en un clúster de gran escala que utiliza entre 50.000 y 60.000 tarjetas de procesamiento nacionales, los fallos de hardware son inevitables. Para ello, el equipo desarrolló un sistema integral de tolerancia a fallos y recuperación automática.

Finalmente, en función de las características del hardware nacional, el equipo realizó un diseño específico de afinidad en el marco de entrenamiento y la estructura del modelo, superando las limitaciones de adaptación de los marcos generales y mejorando el rendimiento de cálculo.

La optimización algorítmica de DeepSeek redujo el umbral de poder de cómputo y bajó el precio del modelo; las prácticas de ingeniería de Meituan demostraron la viabilidad de los chips nacionales. Estas exploraciones también han aportado capacidad y experiencia de ingeniería al ecosistema de chips nacionales.

Liang Wenfeng dijo una vez: «No intentamos ser una sardina, simplemente nos convertimos en una por accidente», y ahora el «efecto sardina» ya se ha manifestado, y DeepSeek no está solo.

De un punto único a un sistema

Tang Daosheng de Tencent Cloud una vez hizo esta analogía: «Los modelos grandes son el motor, y los usuarios son los conductores». Los usuarios fácilmente notan el rendimiento del motor, pero un conductor excelente se da cuenta de que el combustible y el chasis son igualmente importantes.

El desarrollo de la capacidad de cómputo en China depende del progreso coordinado de toda la cadena de suministro. Las empresas clave en cada etapa continúan superando sus debilidades.

En el extremo de fabricación, los datos públicos indican que la producción de chips en China sigue aumentando, pero presenta una estructura en "pesa de gimnasio", donde los procesos maduros por encima de 28 nm dominan absolutamente, mientras que la capacidad de producción para procesos avanzados de 14 nm o inferiores sigue siendo escasa.

Ante la realidad de la falta de máquinas de litografía EUV, empresas como SMIC y Hua Hong Semiconductor están avanzando en el desarrollo de procesos como múltiples exposiciones, buscando un equilibrio dentro de los límites físicos. Múltiples informes indican que la tasa de rendimiento del proceso N+2 de SMIC (equivalente a 7 nm) ya ha superado el 80%, lo que significa que ha cruzado el umbral para la producción comercial a gran escala.

En el lado del poder de cómputo, los chips nacionales aún presentan una brecha en rendimiento por tarjeta en comparación con NVIDIA. La experiencia con productos como el Ascend 910C de Huawei demuestra que, mediante una relación de aceleración lineal de clúster extrema, también es posible ejecutar entrenamientos de modelos de gran escala.

Quien domina el ecosistema domina el mundo. La ventaja competitiva profunda construida por NVIDIA CUDA se debe en gran parte a la formación de un estándar universal de compatibilidad entre software y hardware.

Los profesionales de la industria también son conscientes de esto. Por ejemplo, Cambricon ha lanzado una plataforma de software básico compatible con marcos principales, reduciendo la barrera de migración para los desarrolladores. El sistema de código abierto liderado por el Instituto de Investigación de Inteligencia Artificial Zhiyuan ha construido una interfaz inferior unificada, permitiendo que modelos de nivel superior se ejecuten en diversos chips nacionales.

Muchas grandes empresas de internet en China también han tomado medidas: la estrategia dual de Baidu y la inversión de miles de millones de yuanes de ByteDance buscan soluciones óptimas para la infraestructura de poder de cómputo.

Según datos públicos, en los últimos años, Meituan ha invertido al menos en 21 empresas relacionadas con semiconductores/hardware inteligente y modelos grandes generales. Entre ellas se incluyen Moortian y Muxi Shares en la capa de potencia de chips, así como Axel Intelligence en el ámbito de los chips visuales; también se encuentran empresas como Guangzhou Zhongshan y Dongfang Suangxin en segmentos específicos como nuevos materiales.

Mientras se mantiene un seguimiento técnico continuo, el capital industrial también actúa como inversionista y colaborador en la capacidad de cómputo, formando poco a poco un ciclo positivo.

Del mundo digital a tareas reales

Actualmente, la inteligencia artificial se encuentra en un punto crítico de la tercera ola, y los modelos grandes están impulsando su transición desde la inteligencia artificial débil hacia la inteligencia artificial general; más importante aún, están llevando a los robots desde la era 1.0 de robots especializados hacia la era 2.0 de inteligencia corporal general.

Las palabras de Wang Zhongyuan, director del Beijing Academy of Artificial Intelligence, destacan que el punto clave de la capacidad de la IA es el mundo físico.

Por un lado, numerosos fabricantes nacionales se esfuerzan por hacer que los modelos grandes lean "diez mil libros" en la nube, mejorando la inteligencia y la rigurosidad del razonamiento lógico del modelo. Por otro lado, también se busca que los modelos grandes "viajen diez mil millas"; por ejemplo, el modelo Wenxin ha sido integrado en sistemas de decisión para conducción autónoma; la solución de inspección industrial del modelo Hunyuan ya se encuentra en múltiples escenarios de líneas de producción.

Los servicios de entrega de comida, visitas a establecimientos y viajes y alojamiento de Meituan forman la red de ejecución de tareas más compleja en la vida diaria. Aquí hay una gran cantidad de escenarios reales: desde la velocidad con la que se preparan los platos en la cocina de los comerciantes, hasta las rutas de entrega de los repartidores en medio de una tormenta, y hasta un simple «tengo ganas de hotpot» a medianoche del usuario.

Wang Xing ha especificado claramente que la aplicación Meituan debe ser la primera en actualizarse a una «aplicación impulsada por IA». Esto significa que el objetivo de entrenamiento de LongCat no es solo responder «¿dónde está la carne salteada más rica?», sino también «encontrar ese restaurante, seleccionar el mejor cupón de grupo y reservar dos mesas para las 7 p.m. del viernes».

Esto significa que la efectividad de la entrega de la tarea es especialmente importante, y explica por qué Meituan enfatiza la creación de una base de IA para el mundo físico.

Desde la mejora de parámetros hasta la ejecución de la capacidad de cómputo, los grandes modelos nacionales están avanzando de «utilizables» a «fáciles de usar».

No hay atajos en este camino. En el futuro, cuando los algoritmos, la potencia de cómputo, el capital y los escenarios sigan generando reacciones químicas, la historia de la IA en China también dará la vuelta a la página, pasando de «avances puntuales» a «evolución sistémica».

Este artículo proviene del número de WeChat "Lan Dong Business", autor: Yu Weilin