ChainThink, 16 April, menurut pemantauan Beating, NVIDIA meluncurkan kerangka kerja terbuka Lyra 2.0, yang dapat menghasilkan dunia 3D yang dapat dieksplorasi dari satu gambar tunggal. Setelah pengguna mengunggah satu foto, Lyra 2.0 akan terlebih dahulu menghasilkan video perjalanan yang dikendalikan oleh lintasan kamera, lalu merekonstruksi video tersebut menjadi model 3D Gaussian Splats dan mesh, yang dapat langsung diimpor ke mesin game dan simulator untuk rendering real-time.
Bobot model dan kode tersedia secara open source di Hugging Face dan GitHub dengan lisensi Apache 2.0, memungkinkan penggunaan komersial. Terobosan teknis utamanya terletak pada penyelesaian dua masalah degradasi pada pergerakan jarak jauh: pertama, "lupa ruang", Lyra 2.0 menyelesaikan masalah ketidaksesuaian adegan saat kamera berbalik dengan mempertahankan informasi geometri 3D untuk setiap frame; kedua, "drift waktu", melalui pelatihan self-enhancement, model belajar memperbaiki kesalahan guna menghindari akumulasi kesalahan antar frame yang menyebabkan distorsi adegan. Kerangka kerja ini didasarkan pada diffusion Transformer Wan 2.1-14B di lapisan bawah, dengan resolusi output 832×480.
Salah satu aplikasi utama Lyra 2.0 adalah simulasi robot, di mana NVIDIA mengimpor adegan 3D yang dihasilkan ke simulator fisik miliknya, Isaac Sim, memungkinkan robot untuk melakukan navigasi dan interaksi di dalamnya. Sebelumnya, salah satu hambatan utama dalam pelatihan embodied intelligence adalah biaya tinggi dan keterbatasan variasi dalam pembuatan lingkungan 3D. Lyra 2.0 menyediakan solusi untuk menghasilkan lingkungan pelatihan secara massal dari foto. Dibandingkan dengan Lyra 1.0 yang dirilis pada September tahun lalu, versi 2.0 memperluas cakupan generasi hingga eksplorasi berkelanjutan jarak jauh; meskipun Genie 3 yang dirilis oleh Google memiliki kemampuan serupa, namun tidak bersifat open-source, sehingga Lyra 2.0 saat ini merupakan solusi open-source paling lengkap di bidang ini.
