Sand.ai arrecada mais de US$ 100 milhões em financiamento e planeja lançar o modelo de vídeo MoE de código aberto em julho de 2026

ME AI Notícia, conforme monitorado pela Beating, a empresa de modelos grandes de geração de vídeo Sand.ai (fundada em janeiro de 2024) anunciou a conclusão de duas rodadas de financiamento somando mais de US$ 100 milhões. Os investidores incluem Look Capital, Lollapalooza Capital (fundo familiar de Wang Huiwen), Jiukun Venture Capital, Matrix Partners China, MSA Capital, Innovent Capital, Yuanma Capital, IDG e Baidu Ventures, entre várias instituições de primeiro nível. Esta rodada de financiamento contou com a Starhan Capital como consultora financeira. O fundador da Sand.ai, Cao Yue, afirmou em entrevista que a equipe sempre aderiu à abordagem não consensual de geração de vídeo autoregressiva (Autoregressive), em vez da abordagem dominante de Diffusion. Seu modelo anterior, Magi-1, mantém a primeira posição na lista de testes de realismo físico Physics-IQ da Google DeepMind. Para superar o triângulo impossível de "custo, velocidade e qualidade" na geração de vídeo, a Sand.ai passou a explorar a arquitetura MoE (Mixture of Experts) no ano passado e planeja lançar, em julho de 2026 (Q3), um novo modelo de geração de vídeo baseado em MoE, combinando inferência eficiente com o maior número de parâmetros atualmente disponível no domínio open-source, e disponibilizará esse modelo como open-source. Em termos de comercialização, a Sand.ai adota uma estratégia de dupla impulso: modelo e produto. Seu produto de agente musical, VidMuse, lançado em janeiro deste ano, já alcançou US$ 10 milhões em ARR em apenas dois meses. Além disso, sua biblioteca de operadores open-source MagiAttention já é utilizada por quase todos os times de modelos multimodais na China e recebeu recomendação oficial da NVIDIA. Em relação ao conceito amplamente discutido na indústria de "modelos do mundo", Cao Yue considera que ele ainda está na era pré-GPT (antes do surgimento do GPT-1), com dados e abordagens ainda não convergentes. Ele aponta que o vídeo é o modalidade de dados mais importante para alcançar modelos do mundo e que os modelos devem aprender autonomamente as leis físicas por meio da previsão dos dados brutos de observação de vídeo (pixels/frames), em vez de introduzir conhecimentos humanos prévios para modelar explicitamente variáveis de estado. (Fonte: BlockBeats)