Microsoft ve Zhejiang Üniversitesi, Güçlendirilmiş Öğrenme Yoluyla Video Modellerinde 3B Tutarlılık İçin World-R1'yi Tanıttı

iconKuCoinFlash
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
Blockchain haberi: Microsoft Research ve Zhejiang Üniversitesi, 28 Nisan'da World-R1'i duyurdu; bu, 3D veri setleri olmadan video modellerinin 3B geometriyi anlamasını sağlayan bir pekiştirmeli öğrenme yöntemi. Sistem, Depth Anything 3 kullanarak 3B Gaussiyenleri yeniden oluşturuyor ve render edilmiş görünümleri orijinal footage ile karşılaştırıyor. Hata, trajektori ve Qwen3-VL güvenilirliğine dayalı bir ödül sinyali, Flow-GRPO ile optimize ediliyor. Modeller, 3.000 Gemini tarafından oluşturulan promt ile eğitilen Wan 2.1 (1,3B ve 14B) içeriyor. World-R1-Large, PSNR’i 7,91 dB artırırken, World-R1-Small 10,23 dB artırıyor. Kod, GitHub üzerinde CC BY-NC-SA 4.0 altında mevcut. Gerçek dünya varlıkları (RWA) haberi, AI tabanlı 3B modellemede bu ilerlemeyi vurguluyor.

AIMPACT mesajı, 28 Nisan (UTC+8), Beating izleme sistemine göre, Microsoft Araştırma ve Çin Zhejiang Üniversitesi ekibi, World-R1 adlı bir modeli geliştirdi; bu model,强化 öğrenme kullanarak metinden video üretme modellerinin 3D geometrik tutarlılık kazanmasını sağlıyor, model mimarisini değiştirmeden ve 3D veri setlerine ihtiyaç duymadan. Temel fikir: Video üretildikten sonra, önceden eğitilmiş 3D temel model Depth Anything 3 kullanılarak sahnenin 3D Gauss (3DGS) versiyonu yeniden oluşturulur, ardından yeni bir açıdan render edilir ve orijinal video ile karşılaştırılır; yeniden oluşturma hatası, trajektory sapması ve yeni açıdan semantik güvenilirlik (Qwen3-VL tarafından puanlanır) birleştirilerek ödül sinyali oluşturulur ve bu sinyal, akış uyumlu modellere uyarlanmış bir强化 öğrenme algoritması olan Flow-GRPO aracılığıyla video modeline geri beslenir. Temel model, açık kaynaklı Wan 2.1 (1.3B ve 14B) olup, bunlardan sırasıyla World-R1-Small ve World-R1-Large modelleri eğitildi. Eğitim verisi yalnızca Gemini tarafından oluşturulan yaklaşık 3000 adet metin tabanlı prompt’tan oluşuyor ve hiçbir 3D varlık kullanılmıyor. Eğitim sırasında her 100 adımda bir “dinamik ince ayar” ekleniyor; bu aşamada 3D ödül devre dışı bırakılıyor ve yalnızca kalite ödülü korunuyor; böylece model, geometrik sertliği artırmak için insan hareketi gibi esnek dinamikleri bastırmıyor. 3D tutarlılık ölçütlerinde, World-R1-Large’in PSNR (tepe sinyal-gürültü oranı) değeri, temel olan Wan 2.1 14B’ye göre 7,91 dB artırıldı; Small versiyonu ise 10,23 dB artırıldı. VBench genel video kalitesi azalmadı, aksine yükseldi. 25 kişilik çift-kör testinde geometrik tutarlılık için kazanma oranı %92, genel tercih oranı %86 oldu. Kod, GitHub’da CC BY-NC-SA 4.0 lisansıyla açık kaynaklı hale getirildi. (Kaynak: BlockBeats)

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.