Sand.ai Berjaya Memperoleh Pendanaan Lebih Daripada $100J, Merancang Melancarkan Model Video MoE Sumber Terbuka pada Julai 2026

ME AI mesej, menurut pemantauan Beating, syarikat model generasi video besar Sand.ai (ditubuhkan pada Januari 2024) mengumumkan telah menyelesaikan dua putaran pendanaan dengan jumlah melebihi US$100 juta. Pihak pelabur termasuk Look Capital, Lollapalooza Capital (wakil keluarga Wang Huiwen), Jiukun Venture Capital, Matrix Partners, MSA Capital, Sinovation Ventures, Source Code Capital, IDG, dan Baidu Ventures, antara lain institusi terkemuka. Putaran pendanaan ini diuruskan sebagai penasihat kewangan oleh Xinghan Capital. Pendiri Sand.ai, Cao Yue, dalam temu bual menyatakan bahawa pasukannya terus berpegang pada pendekatan generasi video autoregresif (Autoregressive) yang dianggap tidak popular, berbanding pendekatan Diffusion yang menjadi arus utama. Model Magi-1 yang sebelumnya dilancarkan tetap berada di tangga pertama dalam senarai ujian realiti fizikal Physics-IQ oleh Google DeepMind. Untuk mengatasi segitiga mustahil "kos, kelajuan, dan kesan" dalam generasi video, Sand.ai beralih pada eksplorasi arkaitektur MoE (Mixture of Experts) pada tahun lepas, dan merancang untuk melancarkan model generasi video generasi baru berdasarkan arkaitektur MoE pada Julai 2026 (Q3), yang mengekalkan inferens yang cekap bersama dengan skala parameter terbesar dalam domain open-source, serta akan membuka sumber model tersebut. Dari segi komersialisasi, Sand.ai mengamalkan strategi dua roda yang mendorong model dan produk. Produk Agent muzik mereka, VidMuse, yang dilancarkan pada Januari tahun ini, hanya memerlukan dua bulan untuk mencapai ARR sebanyak US$10 juta. Selain itu, pustaka operator MagiAttention yang dibuka sumbernya telah digunakan oleh hampir semua pasukan model multimodal di China dan mendapat rekomendasi rasmi dari NVIDIA. Mengenai konsep "world model" yang menjadi perbincangan hangat dalam industri, Cao Yue berpendapat bahawa ia masih berada dalam era sebelum GPT (sebelum kemunculan GPT-1), di mana data dan arah belum terkonsolidasi. Beliau menekankan bahawa video adalah modality data paling penting untuk mencapai world model, dan seharusnya melalui ramalan data pengamatan asal video (Pixels/Frames) untuk membolehkan model mempelajari hukum fizikal secara automatik, bukan dengan memperkenalkan pengetahuan manusia untuk secara eksplisit memodelkan pemboleh ubah keadaan. (Sumber: BlockBeats)