Microsoft và Đại học Chiết Giang ra mắt World-R1: Tính nhất quán 3D trong các mô hình video thông qua học tăng cường

iconKuCoinFlash
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Tin tức trên chuỗi: Microsoft Research và Đại học Chiết Giang đã công bố World-R1 vào ngày 28 tháng 4, một phương pháp học tăng cường giúp các mô hình video nắm bắt hình học 3D mà không cần bộ dữ liệu 3D. Hệ thống sử dụng Depth Anything 3 để tái tạo Gaussians 3D, sau đó so sánh các góc nhìn đã tạo với đoạn video gốc. Tín hiệu phần thưởng dựa trên lỗi, quỹ đạo và độ tin cậy của Qwen3-VL được tối ưu hóa thông qua Flow-GRPO. Các mô hình bao gồm Wan 2.1 (1,3 tỷ và 14 tỷ), được huấn luyện với 3.000 lời nhắc do Gemini tạo ra. World-R1-Large cải thiện PSNR thêm 7,91dB, và World-R1-Small cải thiện thêm 10,23dB. Mã nguồn có sẵn trên GitHub theo giấy phép CC BY-NC-SA 4.0. Tin tức về tài sản thực tế (RWA) nhấn mạnh sự tiến bộ này trong mô hình hóa 3D do AI thúc đẩy.

Tin tức AIMPACT, ngày 28 tháng 4 (UTC+8), theo giám sát của Beating, nhóm từ Viện Nghiên cứu Microsoft và Đại học Chiết Giang đã đề xuất World-R1, sử dụng học tăng cường để giúp mô hình sinh video từ văn bản học được tính nhất quán 3D mà không cần thay đổi kiến trúc mô hình hay phụ thuộc vào bộ dữ liệu 3D. Ý tưởng cốt lõi: sau khi sinh video, sử dụng mô hình nền 3D đã được huấn luyện trước Depth Anything 3 để tái tạo các điểm Gaussian 3D của cảnh, sau đó render từ góc nhìn mới và so sánh với video gốc, kết hợp lỗi tái tạo, độ lệch quỹ đạo và độ tin cậy ngữ nghĩa từ góc nhìn mới (được đánh giá bởi Qwen3-VL) thành tín hiệu phần thưởng, rồi phản hồi lại mô hình video thông qua Flow-GRPO (một thuật toán học tăng cường được điều chỉnh cho mô hình khớp luồng). Mô hình nền là万相 Wan 2.1 (1.3B và 14B) mã nguồn mở, lần lượt huấn luyện ra World-R1-Small và World-R1-Large. Dữ liệu huấn luyện chỉ gồm khoảng 3.000 prompt văn bản thuần túy do Gemini tạo ra, không sử dụng bất kỳ tài sản 3D nào. Trong quá trình huấn luyện, cứ sau 100 bước sẽ chèn một vòng “tinh chỉnh động”, tạm thời tắt phần thưởng 3D và chỉ giữ lại phần thưởng chất lượng hình ảnh, nhằm ngăn mô hình ép các chuyển động phi cứng như chuyển động của con người vì sự cứng nhắc về hình học. Về chỉ số nhất quán 3D, PSNR (tỷ lệ tín hiệu đỉnh trên nhiễu) của World-R1-Large tăng 7,91 dB so với Wan 2.1 14B, phiên bản Small tăng 10,23 dB. Chất lượng video tổng thể trên VBench không giảm mà còn tăng. Trong thử nghiệm mù với 25 người, tỷ lệ thắng về tính nhất quán hình học là 92%, sự ưu tiên tổng thể là 86%. Mã nguồn đã được mở trên GitHub với giấy phép CC BY-NC-SA 4.0. (Nguồn: BlockBeats)

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.