DeepSeek V4 et Meituan LongCat 2.0 franchissent la barrière du billion de paramètres

Les entreprises chinoises d'IA commencent à tenter de tracer leur propre voie.

Au début de cette année, le milieu technologique international surveillait attentivement la question de la puissance de calcul en Chine.

En janvier, Musk a déclaré dans un podcast que la Chine dépasserait de loin le reste du monde en puissance de calcul pour l'IA. En février, Sam Altman, PDG d'OpenAI, a affirmé que les progrès technologiques de la Chine dans le domaine de l'intelligence artificielle étaient « étonnamment rapides ». Le PDG de NVIDIA, Jensen Huang, a également déclaré à plusieurs reprises publiquement : « Limiter la technologie IA en Chine accélérera plutôt son développement autonome. »

L'année 2025 peut être qualifiée d'année de regroupement de l'offre. Des GPU nationaux tels que Moore Threads et Muxi Chips ont successivement fait leur entrée sur les marchés financiers, renforçant davantage la base industrielle des grands modèles nationaux. En 2026, ces changements se propagent vers les segments en aval de la chaîne de valeur : fin avril, plusieurs grands modèles nationaux ont lancé de nouvelles versions.

Le 20 avril, Moonshot a lancé le modèle Kimi K2.6, spécialisé dans l'écriture de code à long terme ; le 24 avril, DeepSeek V4 a été publié ; ensuite, LongCat-2.0-Preview de Meituan a ouvert son test bêta. Les deux modèles dépassent tous deux la taille de mille milliards de paramètres et prennent tous deux en charge un contexte ultra-long de 1M.

Il convient de souligner que DeepSeek V4 a réussi la migration et l'adaptation depuis l'écosystème NVIDIA vers la plateforme Ascend de Huawei ; tandis que LongCat2.0 de Meituan est un modèle de langage de mille milliards de paramètres entièrement entraîné et inféré sur des capacités de calcul nationales, utilisant entre 50 000 et 60 000 puces de calcul nationales.

Pendant longtemps, les professionnels chinois de l’IA ont adopté la stratégie courante de s’appuyer sur des solutions matures existantes. Aujourd’hui, les entreprises chinoises d’IA commencent à tracer leur propre voie.

Construire des routes dans la nature sauvage

Comment accomplir une tâche difficile ?

La réponse de l'écrivain de science-fiction Arthur Clarke est : « La seule façon est de faire de l'impossible lui-même le point de départ de l'avancement. »

DeepSeek V4 a connu plusieurs ajustements de date depuis sa première planification jusqu'à sa publication finale. Une des raisons largement supposées à l'extérieur est la nécessité de migrer le code principal hors de CUDA d'NVIDIA.

L'écosystème CUDA, après des dizaines d'années de perfectionnement, est une plateforme de développement puissante et dotée d'outils complets. L'écosystème de calcul national est encore en phase initiale de construction. Le processus de migration du code implique que l'équipe de développement doive effectuer de nombreux travaux de重构 de fondation.

Finalement, DeepSeek y est parvenu : deux jours après le lancement de V4, JPMorgan a indiqué dans un rapport que V4 était avec succès adapté aux puces Ascend de Huawei, validant la faisabilité de la puissance de calcul nationale pour l'inférence AI de pointe ; en outre, DeepSeek a considérablement réduit les coûts d'inférence grâce à des innovations technologiques fondamentales telles que l'architecture d'attention hybride.

DeepSeek réduit les coûts et améliore l'efficacité à la manière des passionnés de technologie, accomplissant une migration exigeante en réécrivant la moitié du travail d'un grand modèle. Le même jour,美团 LongCat-2.0-Preview, ouvert en test, fonctionne directement sur des infrastructures de calcul nationales.

Quels sont les défis techniques du calcul domestique ? Examinons-le avec LongCat-2.0-Preview comme exemple.

Le premier défi est d'ordre physique : la capacité et la bande passante de la mémoire vidéo des composants nationaux diffèrent de celles des puces NVIDIA. Lors de l'entraînement et du déploiement de modèles de mille milliards de paramètres, l'équipe de Meituan a rencontré d'importants défis techniques, nécessitant un effort considérable pour ajuster les stratégies de parallélisation et optimiser la mémoire vidéo.

Le deuxième défi réside dans la maturité de l'écosystème logiciel : pour s'adapter aux caractéristiques des puces nationales et garantir la précision et la reproductibilité tout au long du processus d'entraînement, l'équipe doit réécrire et optimiser les opérateurs principaux, ainsi que développer ses propres opérateurs entièrement déterministes.

Le troisième défi réside dans la stabilité des clusters de dix mille cartes : sur un cluster à très grande échelle utilisant 50 000 à 60 000 cartes de calcul nationales, les pannes matérielles sont inévitables. À cet effet, l'équipe a mis en place un système complet de tolérance aux pannes et de récupération automatique.

Enfin, en tenant compte des caractéristiques des matériels nationaux, l'équipe a conçu de manière ciblée le cadre d'entraînement et la structure du modèle, surmontant les limites d'adaptation des cadres universels et améliorant les performances de calcul.

L'optimisation algorithmique de DeepSeek a abaissé les exigences en puissance de calcul et réduit le prix des modèles ; les pratiques d'ingénierie de Meituan ont démontré la faisabilité des puces nationales. Ces explorations ont également permis de développer des compétences et de l'expérience pour l'écosystème des puces nationales.

Liang Wenheng a dit : « Nous n'avons pas intentionnellement cherché à devenir une perche, nous l'avons simplement fait par accident », et aujourd'hui, l'« effet perche » est déjà visible, DeepSeek n'est pas seul.

Du point unique au système

Tang Daosheng de Tencent Cloud a autrefois utilisé cette métaphore : « Le grand modèle est le moteur, l'utilisateur est le conducteur ». Les utilisateurs remarquent facilement les performances du moteur, mais un bon conducteur comprend que le carburant et le châssis sont tout aussi importants.

Le développement de la puissance de calcul en Chine repose sur l'avancement coordonné de toute la chaîne industrielle. Les entreprises clés de chaque maillon continuent de combler leurs lacunes.

Au niveau de la production, les données publiques montrent que la production de puces en Chine ne cesse d'augmenter, mais présente une structure en « haltère » : les procédés matures au-dessus de 28 nm dominent largement, tandis que la capacité de production pour les procédés avancés à 14 nm et en dessous reste encore rare.

Face à l'absence de machines de lithographie EUV, des entreprises telles que SMIC et Hua Hong Semiconductor avancent sur des techniques telles que les exposés multiples, cherchant à trouver un équilibre dans les limites physiques. Selon de multiples rapports, le rendement du processus N+2 de SMIC (équivalent 7 nm) a dépassé 80 %, ce qui signifie qu'il a franchi le seuil de la production commerciale à grande échelle.

Au niveau du calcul, les puces nationales présentent encore un écart en termes de puissance par carte par rapport à NVIDIA. Les expériences avec des produits tels que le Ascend 910C de Huawei montrent qu'il est possible de mener des entraînements de modèles de très grande taille grâce à un rapport d'accélération linéaire de cluster extrêmement élevé.

Celui qui maîtrise l'écosystème maîtrise le monde. La profondeur du fossé créé par NVIDIA CUDA provient en grande partie de la mise en place d'une norme universelle de compatibilité logicielle et matérielle.

Les professionnels du secteur ont également pris conscience de cela. Par exemple, Cambricon a lancé une plateforme logicielle de base compatible avec les cadres principaux, réduisant ainsi les barrières à la migration pour les développeurs. Le système open source mené par l'Institut de recherche en intelligence artificielle Zhiyuan a établi une interface de base unifiée, permettant aux modèles de niveau supérieur de fonctionner sur diverses puces nationales.

Les grandes entreprises internet nationales ont également pris plusieurs initiatives : la stratégie à deux voies de Baidu et les investissements de plusieurs milliards de yuans de ByteDance visent à trouver de meilleures solutions pour l'infrastructure de calcul.

Selon les données publiques, Meituan a investi dans au moins 21 entreprises couvrant les domaines des semi-conducteurs/des équipements intelligents et des grands modèles généraux. Parmi celles-ci, on trouve des entreprises comme Moore Threads et Muxi Semiconductor dans le domaine du calcul des puces, ainsi que Axinom dans le domaine des puces visuelles ; ainsi que plusieurs autres entreprises spécialisées dans des segments tels que les nouveaux matériaux, notamment Guangzhou Zhongshan et Dongfang Suangxin.

Tout en suivant activement les évolutions techniques, les capitaux industriels jouent également le rôle d’investisseurs et de partenaires dans le domaine du calcul, créant progressivement une boucle vertueuse.

Du monde numérique aux tâches réelles

L’intelligence artificielle est actuellement à un point décisif de sa troisième vague, les grands modèles la poussant de l’IA étroite vers l’IA générale, et surtout, propulsant les robots de l’ère des robots spécialisés 1.0 vers l’ère de l’intelligence incarnée générale 2.0.

Les propos de Wang Zhongyuan, directeur de l'Institut de recherche en intelligence artificielle de Pékin, soulignent que le point d'application essentiel des capacités de l'IA est le monde physique.

D’un côté, de nombreux fabricants nationaux s’efforcent de permettre aux grands modèles de « lire dix mille livres » dans le cloud, afin d’améliorer leur intelligence et la rigueur de leur raisonnement logique. De l’autre côté, il faut aussi permettre aux grands modèles de « parcourir dix mille lieues » : par exemple, le grand modèle Wenxin a été intégré au système de décision des véhicules autonomes ; la solution d’inspection industrielle du grand modèle Hunyuan est déjà déployée sur plusieurs chaînes de production.

Les services de livraison, de restauration sur place et d'hébergement de Meituan forment le réseau d'exécution de tâches le plus complexe de la vie quotidienne. Ici, on trouve une quantité énorme de scénarios réels : de la vitesse de préparation des plats dans les cuisines des commerçants, aux itinéraires de livraison des livreurs sous la pluie, jusqu'à un simple message d'un utilisateur à minuit : « J'ai envie de hotpot ».

Wang Xing a clairement déclaré que l'application Meituan devait être la première à être mise à niveau en tant qu'« application pilotée par l'IA ». Cela signifie que l'objectif d'entraînement de LongCat ne se limite pas à répondre à la question « Quel restaurant sert les meilleurs porcs épicés ? », mais aussi à « trouver ce restaurant, sélectionner le meilleur bon de réduction, puis réserver deux places pour vendredi soir à 19 heures ».

Cela signifie que l'efficacité de la livraison de la tâche est particulièrement importante, ce qui explique pourquoi Meituan insiste sur la création d'une base d'intelligence artificielle pour le monde physique.

Passant de l'amélioration des paramètres à l'optimisation de la puissance de calcul, les grands modèles nationaux sont en train de passer de « utilisables » à « facilement utilisables ».

Il n’y a pas de raccourci sur ce chemin. À l’avenir, lorsque les algorithmes, la puissance de calcul, les fonds et les scénarios continueront de produire des réactions chimiques, l’histoire de l’IA en Chine passera de la phase « percée ponctuelle » à celle de « l’évolution systémique ».

Cet article provient du compte officiel WeChat « Blue Hole Business », auteur : Yu Weilin