NVIDIA Membuka Sumber Lyra 2.0, Menghasilkan Dunia 3D yang Boleh Dilalui daripada Gambar Tunggal

iconChainthink
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
NVIDIA membuka sumber Lyra 2.0, sebuah kerangka kerja yang membina dunia 3D yang boleh dilalui daripada gambar tunggal. Model ini menggunakan laluan kamera untuk mencipta video perjalanan dan menukarnya kepada splats Gaussian 3D dan model mesh untuk penggunaan masa nyata dalam enjin permainan. Berat dan kod tersedia di Hugging Face dan GitHub di bawah Apache 2.0 untuk penggunaan komersial. Dengan minat terbuka yang meningkat dalam robotik berdasarkan AI, Lyra 2.0 memperbaiki isu lupa ruang dan drift tempoh. Ia menggunakan model Wan 2.1-14B untuk menghasilkan pada resolusi 832×480 dan menyokong eksplorasi jarak jauh. Pembangun boleh menggunakan alat ini di Isaac Sim untuk navigasi dan simulasi robot, menjadikannya penyelesaian sumber terbuka yang paling lengkap dalam bidang ini di tengah-tengah perubahan tahap indeks takut dan serakah pasaran.

ChainThink melaporkan, pada 16 April, menurut pemantauan Beating, NVIDIA melancarkan kerangka sumber terbuka Lyra 2.0, yang mampu menghasilkan dunia 3D yang boleh dieksplorasi daripada satu gambar sahaja. Selepas pengguna menghantar satu gambar, Lyra 2.0 akan terlebih dahulu menghasilkan video perjalanan yang dikawal oleh trajektori kamera, kemudian membina semula video tersebut menjadi model 3D Gaussian Splats dan mesh, yang boleh diimport terus ke dalam enjin permainan dan simulator untuk render secara masa nyata.


Bobot model dan kod dibuka sumber di Hugging Face dan GitHub dengan lesen Apache 2.0, membenarkan penggunaan komersial. Terobosan teknologi utamanya ialah menyelesaikan dua masalah degradasi dalam perjalanan jarak jauh: pertama, "lupa ruang", Lyra 2.0 menyelesaikan isu ketidakkonsistenan adegan semasa kamera berpusing dengan menyimpan maklumat geometri 3D bagi setiap bingkai; kedua, "pergeseran masa", melalui latihan peningkatan diri, model belajar untuk membetulkan ralat dan mengelakkan akumulasi ralat bingkai demi bingkai yang menyebabkan distorsi adegan. Kerangka ini berasaskan Diffusion Transformer Wan 2.1-14B di peringkat bawah, dengan resolusi output 832×480.


Salah satu aplikasi utama Lyra 2.0 ialah simulasi robot, di mana NVIDIA mengimport adegan 3D yang dihasilkan ke dalam simulator fizikal milik mereka, Isaac Sim, membolehkan robot melakukan navigasi dan interaksi di dalamnya. Sebelum ini, salah satu halangan utama dalam latihan kecerdasan badani ialah kos pembuatan persekitaran 3D yang tinggi dan jenisnya yang terhad; Lyra 2.0 menyediakan jalan untuk menghasilkan persekitaran latihan secara berjumlah daripada gambar. Berbanding Lyra 1.0 yang dilancarkan pada September tahun lepas, versi 2.0 memperluaskan lingkungan penghasilan kepada eksplorasi berterusan jarak jauh; Genie 3 yang sebelum ini dikeluarkan oleh Google mempunyai kemampuan serupa tetapi tidak bersifat sumber terbuka, menjadikan Lyra 2.0 sebagai penyelesaian sumber terbuka yang paling lengkap dalam arah ini.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.