Microsoft та Чжечзянський університет представили World-R1: 3D-консистентність у відеомоделях за допомогою підсиленого навчання

KuCoinFlash

Час випуску: 28.04.2026, 10:02:29

Поділитися

Короткий зміст

Новини на ланцюгу: Microsoft Research та Цзяньзянський університет представили World-R1 28 квітня — метод підсиленого навчання, що дозволяє відеомоделям розуміти 3D-геометрію без 3D-даних. Система використовує Depth Anything 3 для реконструкції 3D-гаусіанів, а потім порівнює відтворені зображення з оригінальними відеофрагментами. Сигнал нагороди, заснований на помилці, траєкторії та надійності Qwen3-VL, оптимізується за допомогою Flow-GRPO. Моделі включають Wan 2.1 (1,3B та 14B), навчені на 3000 промптах, згенерованих Gemini. World-R1-Large покращив PSNR на 7,91 дБ, а World-R1-Small — на 10,23 дБ. Код доступний на GitHub за ліцензією CC BY-NC-SA 4.0. Новини про реальні активи (RWA) підкреслюють цей прогрес у AI-драйвованому 3D-моделюванні.

Повідомлення AIMPACT, 28 квітня (UTC+8): За даними моніторингу Beating, дослідники з науково-дослідного інституту Microsoft та Цзяотунського університету Чжедзян запропонували World-R1 — метод, що дозволяє моделям генерації відео з тексту навчитися 3D-геометричної послідовності за допомогою підсиленого навчання, без зміни архітектури моделі та без використання 3D-датасетів. Основна ідея: після генерації відео за допомогою попередньо навченої 3D-базової моделі Depth Anything 3 відновлюється 3D-гаусіан (3DGS) сцени, після чого відео рендериться з нових кутів перспективи та порівнюється з оригінальним відео. Винагорода формується на основі поєднання помилок відновлення, відхилень траєкторій та семантичної правдоподібності нових кутів перспективи (оціненої Qwen3-VL), яка передається моделі відео за допомогою Flow-GRPO — алгоритму підсиленого навчання, адаптованого для моделей збігу потоків. Базовою моделлю є відкритий万相 Wan 2.1 (1,3B та 14B), на основі якого були навчені World-R1-Small та World-R1-Large. Дані для навчання складалися лише з приблизно 3000 текстових промптів, згенерованих Gemini, без використання будь-яких 3D-ресурсів. Під час навчання кожні 100 кроків впроваджувалася «динамічна доналаштування»: тимчасово вимикалася 3D-винагорода, залишалася лише винагорода за якість зображення, щоб запобігти пригнобленню нестрийних динамічних рухів, таких як рухи людей, через надмірну геометричну жорсткість. За показниками 3D-послідовності: PSNR (пикове співвідношення сигнал/шум) World-R1-Large зросла на 7,91 дБ порівняно з базовою моделлю Wan 2.1 14B, а версія Small — на 10,23 дБ. Якість відео за VBench не знизилася, а навпаки, зросла. У слепому тестуванні серед 25 осіб перевага у геометричній послідовності становила 92%, загальна перевага — 86%. Код уже опубліковано на GitHub за ліцензією CC BY-NC-SA 4.0. (Джерело: BlockBeats)

Джерело:Показати оригінал

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.