NVIDIA Membuka Sumber Lyra 2.0, Menghasilkan Dunia 3D yang Dapat Dijalani dari Foto Tunggal

iconChainthink
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
NVIDIA membuka sumber Lyra 2.0, sebuah kerangka kerja yang membangun dunia 3D yang dapat dijelajahi dari foto tunggal. Model ini menggunakan jalur kamera untuk membuat video berjalan dan mengonversinya menjadi 3D Gaussian splats dan model mesh untuk penggunaan real-time di mesin game. Bobot dan kode tersedia di Hugging Face dan GitHub di bawah lisensi Apache 2.0 untuk penggunaan komersial. Dengan open interest yang meningkat dalam robotika berbasis AI, Lyra 2.0 memperbaiki masalah spatial forgetting dan temporal drift. Model ini menggunakan Wan 2.1-14B untuk menghasilkan output dengan resolusi 832×480 dan mendukung eksplorasi jarak jauh. Pengembang dapat menggunakan alat ini di Isaac Sim untuk navigasi dan simulasi robot, menjadikannya solusi open-source paling lengkap di bidang ini di tengah fluktuasi indeks fear and greed di pasar.

ChainThink, 16 April, menurut pemantauan Beating, NVIDIA meluncurkan kerangka kerja terbuka Lyra 2.0, yang dapat menghasilkan dunia 3D yang dapat dieksplorasi dari satu gambar tunggal. Setelah pengguna mengunggah satu foto, Lyra 2.0 akan terlebih dahulu menghasilkan video perjalanan yang dikendalikan oleh lintasan kamera, lalu merekonstruksi video tersebut menjadi model 3D Gaussian Splats dan mesh, yang dapat langsung diimpor ke mesin game dan simulator untuk rendering real-time.


Bobot model dan kode tersedia secara open source di Hugging Face dan GitHub dengan lisensi Apache 2.0, memungkinkan penggunaan komersial. Terobosan teknis utamanya terletak pada penyelesaian dua masalah degradasi pada pergerakan jarak jauh: pertama, "lupa ruang", Lyra 2.0 menyelesaikan masalah ketidaksesuaian adegan saat kamera berbalik dengan mempertahankan informasi geometri 3D untuk setiap frame; kedua, "drift waktu", melalui pelatihan self-enhancement, model belajar memperbaiki kesalahan guna menghindari akumulasi kesalahan antar frame yang menyebabkan distorsi adegan. Kerangka kerja ini didasarkan pada diffusion Transformer Wan 2.1-14B di lapisan bawah, dengan resolusi output 832×480.


Salah satu aplikasi utama Lyra 2.0 adalah simulasi robot, di mana NVIDIA mengimpor adegan 3D yang dihasilkan ke simulator fisik miliknya, Isaac Sim, memungkinkan robot untuk melakukan navigasi dan interaksi di dalamnya. Sebelumnya, salah satu hambatan utama dalam pelatihan embodied intelligence adalah biaya tinggi dan keterbatasan variasi dalam pembuatan lingkungan 3D. Lyra 2.0 menyediakan solusi untuk menghasilkan lingkungan pelatihan secara massal dari foto. Dibandingkan dengan Lyra 1.0 yang dirilis pada September tahun lalu, versi 2.0 memperluas cakupan generasi hingga eksplorasi berkelanjutan jarak jauh; meskipun Genie 3 yang dirilis oleh Google memiliki kemampuan serupa, namun tidak bersifat open-source, sehingga Lyra 2.0 saat ini merupakan solusi open-source paling lengkap di bidang ini.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.