Microsoft и Чжэцзянский университет представили World-R1: 3D-согласованность в видео-моделях с использованием обучения с подкреплением

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Новости на блокчейне: Microsoft Research и Чжэцзянский университет представили World-R1 28 апреля — метод усиленного обучения, позволяющий видео-моделям понимать 3D-геометрию без использования 3D-датасетов. Система использует Depth Anything 3 для реконструкции 3D-гауссиан, после чего сравнивает сгенерированные изображения с оригинальным видео. Сигнал вознаграждения, основанный на ошибке, траектории и достоверности Qwen3-VL, оптимизируется с помощью Flow-GRPO. Модели включают Wan 2.1 (1,3 млрд и 14 млрд параметров), обученные на 3000 промптах, сгенерированных Gemini. World-R1-Large улучшил PSNR на 7,91 дБ, а World-R1-Small — на 10,23 дБ. Код доступен на GitHub по лицензии CC BY-NC-SA 4.0. Новости о реальных активов (RWA) подчеркивают это достижение в области AI-ориентированного 3D-моделирования.

Сообщение AIMPACT, 28 апреля (UTC+8): Согласно мониторингу Beating, команда исследователей Microsoft Research и Цзяньтаньского университета представила World-R1 — метод, использующий обучение с подкреплением для обучения моделям генерации видео из текста обеспечивать геометрическую согласованность в 3D без изменения архитектуры модели и без зависимости от 3D-наборов данных. Основная идея: после генерации видео с помощью предварительно обученной 3D-базовой модели Depth Anything 3 восстанавливается сцена в виде 3D-гауссиан (3DGS), затем сцена рендерится с новых углов обзора и сравнивается с исходным видео. Ошибка восстановления, отклонение траектории и семантическая достоверность новых углов обзора (оцененные Qwen3-VL) объединяются в сигнал вознаграждения, который через Flow-GRPO (алгоритм обучения с подкреплением, адаптированный для моделей потокового соответствия) передается обратно модели видео. В качестве базовой модели использовались открытые версии Wan 2.1 (1,3B и 14B), на основе которых были обучены World-R1-Small и World-R1-Large. Обучающие данные состояли лишь из примерно 3000 текстовых промптов, сгенерированных Gemini, без использования каких-либо 3D-ресурсов. Каждые 100 шагов обучения выполнялась «динамическая тонкая настройка»: вознаграждение за геометрическую согласованность временно отключалось, оставляя только вознаграждение за качество изображения, чтобы предотвратить подавление нестационарных динамик, таких как движение персонажей, в стремлении к геометрической жесткости. По показателям 3D-согласованности PSNR (пиковая отношение сигнал/шум) World-R1-Large превзошел базовую модель Wan 2.1 14B на 7,91 дБ, а версия Small — на 10,23 дБ. Общее качество видео по VBench не снизилось, а даже улучшилось. В слепом тестировании с участием 25 человек победа по геометрической согласованности составила 92%, общее предпочтение — 86%. Код уже опубликован на GitHub под лицензией CC BY-NC-SA 4.0. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.