NVIDIA Membuka Sumber Lyra 2.0, Menghasilkan Dunia 3D yang Boleh Dilalui daripada Gambar Tunggal

ChainThink melaporkan, pada 16 April, menurut pemantauan Beating, NVIDIA melancarkan kerangka sumber terbuka Lyra 2.0, yang mampu menghasilkan dunia 3D yang boleh dieksplorasi daripada satu gambar sahaja. Selepas pengguna menghantar satu gambar, Lyra 2.0 akan terlebih dahulu menghasilkan video perjalanan yang dikawal oleh trajektori kamera, kemudian membina semula video tersebut menjadi model 3D Gaussian Splats dan mesh, yang boleh diimport terus ke dalam enjin permainan dan simulator untuk render secara masa nyata.

Bobot model dan kod dibuka sumber di Hugging Face dan GitHub dengan lesen Apache 2.0, membenarkan penggunaan komersial. Terobosan teknologi utamanya ialah menyelesaikan dua masalah degradasi dalam perjalanan jarak jauh: pertama, "lupa ruang", Lyra 2.0 menyelesaikan isu ketidakkonsistenan adegan semasa kamera berpusing dengan menyimpan maklumat geometri 3D bagi setiap bingkai; kedua, "pergeseran masa", melalui latihan peningkatan diri, model belajar untuk membetulkan ralat dan mengelakkan akumulasi ralat bingkai demi bingkai yang menyebabkan distorsi adegan. Kerangka ini berasaskan Diffusion Transformer Wan 2.1-14B di peringkat bawah, dengan resolusi output 832×480.

Salah satu aplikasi utama Lyra 2.0 ialah simulasi robot, di mana NVIDIA mengimport adegan 3D yang dihasilkan ke dalam simulator fizikal milik mereka, Isaac Sim, membolehkan robot melakukan navigasi dan interaksi di dalamnya. Sebelum ini, salah satu halangan utama dalam latihan kecerdasan badani ialah kos pembuatan persekitaran 3D yang tinggi dan jenisnya yang terhad; Lyra 2.0 menyediakan jalan untuk menghasilkan persekitaran latihan secara berjumlah daripada gambar. Berbanding Lyra 1.0 yang dilancarkan pada September tahun lepas, versi 2.0 memperluaskan lingkungan penghasilan kepada eksplorasi berterusan jarak jauh; Genie 3 yang sebelum ini dikeluarkan oleh Google mempunyai kemampuan serupa tetapi tidak bersifat sumber terbuka, menjadikan Lyra 2.0 sebagai penyelesaian sumber terbuka yang paling lengkap dalam arah ini.