Sand.ai obtiene más de $100 millones en financiamiento y planea lanzar un modelo de video MoE de código abierto en julio de 2026

ME AI Noticia, según el monitoreo de Dongcha Beating, la empresa de modelos grandes de generación de video Sand.ai (fundada en enero de 2024) anunció la finalización de dos rondas de financiación que suman más de 100 millones de dólares. Entre los inversores se encuentran Look Capital, Lollapalooza Capital (fondo familiar de Wang Huiwen), Jiukun Venture Capital, Matrix Partners, MSA Capital, Sinovation Ventures, Yuanma Capital, IDG y Baidu Ventures, entre otras instituciones líderes. Esta ronda de financiación fue asesorada por Xinghan Capital. El fundador de Sand.ai, Cao Yue, declaró en una entrevista que el equipo ha mantenido consistentemente una ruta de generación de video autoregresiva (Autoregressive), considerada no consensuada, en lugar de la ruta dominante basada en Diffusion. Su modelo anterior, Magi-1, mantiene el primer lugar en la lista de pruebas de realismo físico Physics-IQ de Google DeepMind. Para superar el triángulo imposible de "costo, velocidad y calidad" en la generación de video, Sand.ai cambió el año pasado su enfoque hacia la exploración de arquitecturas MoE (Mixture of Experts) y planea lanzar en julio de 2026 (T3) un nuevo modelo de generación de video basado en MoE, que combina inferencia eficiente con el mayor tamaño de parámetros actualmente disponible en el ámbito open source, y lo abrirá como código abierto. En términos de comercialización, Sand.ai adopta una estrategia impulsada por dos ruedas: modelo y producto. Su producto de agente musical VidMuse, lanzado en enero de este año, logró 10 millones de dólares en ARR en solo dos meses. Además, su biblioteca de operadores MagiAttention abierta ya es utilizada por casi todos los equipos de modelos multimodales en China y ha recibido la recomendación oficial de NVIDIA. Sobre el concepto ampliamente discutido en la industria del "modelo del mundo", Cao Yue considera que aún se encuentra en la era previa a GPT (antes del lanzamiento de GPT-1), con datos y rutas aún no convergentes. Él señala que el video es el modalidad de datos más importante para alcanzar un modelo del mundo, y que se debe permitir que el modelo aprenda automáticamente las leyes físicas mediante la predicción de los datos observacionales originales del video (píxeles/frames), en lugar de introducir conocimientos humanos previos para modelar explícitamente variables de estado. (Fuente: BlockBeats)