Sand.ai lève plus de 100 millions de dollars, prévoit le lancement d'un modèle vidéo MoE open source en juillet 2026

ME AI Message, selon les données de Beating Monitoring, l’entreprise de modèles de génération vidéo Sand.ai (fondée en janvier 2024) a annoncé avoir levé plus de 100 millions de dollars au total sur deux rounds de financement. Les investisseurs incluent Look Capital, Lollapalooza Capital (fonds familial de Wang Huiwen), Jiukun Venture Capital, Matrix Partners, MSA Capital, Sinovation Ventures, Source Code Capital, IDG et Baidu Ventures, parmi d’autres institutions de premier plan. Ce tour de financement a été accompagné par Starhan Capital en tant que conseiller financier. Le fondateur de Sand.ai, Cao Yue, a déclaré dans un entretien que l’équipe a constamment poursuivi une approche autoregressive (auto-régressive) pour la génération vidéo, considérée comme non conventionnelle, plutôt que la voie dominante basée sur Diffusion. Le modèle Magi-1 précédemment publié par Sand.ai conserve la première place sur le classement Physics-IQ de Google DeepMind pour la réalisme physique. Pour surmonter le « triangle impossible » de coût, vitesse et qualité en génération vidéo, Sand.ai a pivoté l’année dernière vers l’exploration d’une architecture MoE (Mixture of Experts) et prévoit de lancer en juillet 2026 (T3) un nouveau modèle de génération vidéo basé sur MoE, combinant un inférence efficace avec la plus grande échelle de paramètres actuellement disponible dans le domaine open source, et le rendra open source. Sur le plan commercial, Sand.ai adopte une stratégie à deux roues : modèle et produit. Son produit Agent musical VidMuse, lancé en janvier de cette année, a déjà atteint 10 millions de dollars de ARR en seulement deux mois. De plus, sa bibliothèque d’opérateurs open source MagiAttention est utilisée par presque toutes les équipes de modèles multimodaux en Chine et a reçu une recommandation officielle de NVIDIA. Concernant le concept largement débattu dans l’industrie du « modèle du monde », Cao Yue estime qu’il se situe encore à l’ère pré-GPT (avant l’apparition du GPT-1), avec des données et des approches encore non convergentes. Il souligne que la vidéo constitue le mode de données le plus important pour atteindre un modèle du monde, et qu’il convient de permettre au modèle d’acquérir automatiquement les lois physiques en prédisant les données d’observation brutes de la vidéo (pixels/frames), plutôt que d’introduire des connaissances humaines a priori pour modéliser explicitement les variables d’état. (Source : BlockBeats)