Microsoft dan Universiti Zhejiang memperkenalkan World-R1: Konsistensi 3D dalam Model Video melalui Pembelajaran Penguatan

KuCoinFlash

Masa Siaran: 28/04/2026, 10:02:29

Kongsi

Ringkasan

Berita di rantai: Microsoft Research dan Universiti Zhejiang melancarkan World-R1 pada 28 April, satu kaedah pembelajaran penguatan yang membolehkan model video memahami geometri 3D tanpa set data 3D. Sistem ini menggunakan Depth Anything 3 untuk meng重建 Gaussians 3D, kemudian membandingkan pandangan yang dirender dengan rakaman asal. Isyarat ganjaran berdasarkan ralat, trajektori, dan kredibiliti Qwen3-VL dioptimumkan melalui Flow-GRPO. Model termasuk Wan 2.1 (1.3B dan 14B), dilatih dengan 3,000 promp yang dihasilkan oleh Gemini. World-R1-Large meningkatkan PSNR sebanyak 7.91dB, dan World-R1-Small sebanyak 10.23dB. Kod tersedia di GitHub di bawah CC BY-NC-SA 4.0. Berita aset dunia nyata (RWA) menonjolkan kemajuan ini dalam pemodelan 3D bersepadukan AI.

Mesej AIMPACT, 28 April (UTC+8), menurut pemantauan Beating, pasukan Microsoft Research dan Universiti Zhejiang mengusulkan World-R1, yang menggunakan pembelajaran penguatan untuk mengajar model teks-ke-video memahami konsistensi geometri 3D tanpa mengubah arsitektur model atau bergantung pada set data 3D. Gagasan utama: selepas menghasilkan video, gunakan model dasar 3D yang telah dilatih sebelumnya, Depth Anything 3, untuk membangun semula 3D Gaussian (3DGS) adegan, kemudian merender dari sudut pandang baru dan membandingkannya dengan video asal, menggabungkan ralat pembinaan semula, penyimpangan trajektori, dan kebolehpercayaan semantik sudut pandang baru (dinilai oleh Qwen3-VL) menjadi isyarat ganjaran, yang kemudian disampaikan semula kepada model video melalui Flow-GRPO (algoritma pembelajaran penguatan yang disesuaikan untuk model pencocokan aliran). Model dasar ialah Wan 2.1 sumber terbuka (1.3B dan 14B), yang masing-masing dilatih menjadi World-R1-Small dan World-R1-Large. Data latihan hanya sekitar 3,000 prompt teks tulen, dihasilkan oleh Gemini, tanpa menggunakan sebarang aset 3D. Semasa latihan, satu sesi "penyesuaian dinamik" dimasukkan setiap 100 langkah, sementara menutup ganjaran 3D dan hanya mengekalkan ganjaran kualiti gambar, untuk mengelakkan model menekan pergerakan manusia dan dinamik bukan-kekakuan demi kekakuan geometri. Dalam indikator konsistensi 3D, PSNR (peak signal-to-noise ratio) World-R1-Large meningkat sebanyak 7.91dB berbanding Wan 2.1 14B, manakala versi Small meningkat 10.23dB. Kualiti video umum VBench tidak menurun malah meningkat. Dalam ujian buta oleh 25 orang, kejayaan konsistensi geometri ialah 92%, dan keutamaan keseluruhan ialah 86%. Kod telah dibuka sumber di GitHub dengan lesen CC BY-NC-SA 4.0. (Sumber: BlockBeats)

Sumber:Tunjukkan artikel asal

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.