Microsoft dan Universitas Zhejiang Memperkenalkan World-R1: Konsistensi 3D dalam Model Video Melalui Pembelajaran Penguatan

KuCoinFlash

Waktu Rilis: 28/04/2026, 10.02.29

Ringkasan

Berita on-chain: Microsoft Research dan Universitas Zhejiang meluncurkan World-R1 pada 28 April, sebuah metode reinforcement learning yang memungkinkan model video memahami geometri 3D tanpa dataset 3D. Sistem ini menggunakan Depth Anything 3 untuk merekonstruksi 3D Gaussians, lalu membandingkan tampilan yang di-render dengan rekaman asli. Sinyal reward berdasarkan kesalahan, trajektori, dan kredibilitas Qwen3-VL dioptimalkan melalui Flow-GRPO. Model-termasuk Wan 2.1 (1,3B dan 14B), dilatih dengan 3.000 prompt yang dihasilkan oleh Gemini. World-R1-Large meningkatkan PSNR sebesar 7,91dB, dan World-R1-Small sebesar 10,23dB. Kode tersedia di GitHub dengan lisensi CC BY-NC-SA 4.0. Berita tentang real-world assets (RWA) menyoroti kemajuan ini dalam pemodelan 3D berbasis AI.

Pesan AIMPACT, 28 April (UTC+8), menurut pemantauan Beating, tim dari Microsoft Research dan Zhejiang University mengusulkan World-R1, yang menggunakan reinforcement learning agar model text-to-video memahami konsistensi geometri 3D tanpa mengubah arsitektur model atau bergantung pada dataset 3D. Gagasan intinya: setelah menghasilkan video, gunakan model dasar 3D yang sudah dilatih sebelumnya, Depth Anything 3, untuk merekonstruksi 3D Gaussian (3DGS) dari adegan, lalu render dari sudut pandang baru dan bandingkan dengan video asli. Kesalahan rekonstruksi, deviasi trajektori, dan kredibilitas semantik sudut pandang baru (dinilai oleh Qwen3-VL) digabungkan menjadi sinyal reward, yang kemudian dikirimkan kembali ke model video melalui Flow-GRPO (algoritma reinforcement learning yang disesuaikan untuk model flow matching). Model dasar adalah Wan 2.1 (1.3B dan 14B) yang bersifat open-source, masing-masing dilatih menjadi World-R1-Small dan World-R1-Large. Data pelatihan hanya sekitar 3.000 prompt teks murni yang dihasilkan oleh Gemini, tanpa menggunakan aset 3D apa pun. Selama pelatihan, setiap 100 langkah dimasukkan satu putaran "fine-tuning dinamis", sementara menonaktifkan reward 3D dan hanya mempertahankan reward kualitas gambar, untuk mencegah model menekan gerakan non-rigid seperti gerakan manusia demi mencapai kekakuan geometris. Pada indikator konsistensi 3D, PSNR (peak signal-to-noise ratio) World-R1-Large meningkat 7,91 dB dibandingkan Wan 2.1 14B, sementara versi Small meningkat 10,23 dB. Kualitas video umum VBench tidak turun, malah meningkat. Dalam uji coba buta oleh 25 orang, tingkat kemenangan konsistensi geometris mencapai 92%, dan preferensi keseluruhan 86%. Kode telah dirilis secara open-source di GitHub dengan lisensi CC BY-NC-SA 4.0. (Sumber: BlockBeats)

Sumber:Tampilkan versi asli

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.