Fudan và Meituan LongCat công bố bộ đánh giá mô hình thế giới tương tác WBench mã nguồn mở

iconKuCoinFlash
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Đại học Phù Đan và Meituan LongCat đã mở nguồn WBench, một bộ tiêu chuẩn để đánh giá việc tạo video trong các mô hình thế giới tương tác. WBench bao gồm 289 trường hợp kiểm tra và 1.058 vòng tương tác, với các chỉ số hỗ trợ và kháng cự trên các khía cạnh điều hướng, hành động và kiểm soát góc nhìn. Bộ tiêu chuẩn sử dụng văn bản, tư thế 6-DoF và hành động rời rạc để so sánh đa chiều. Đánh giá bao gồm 22 chỉ số, cho thấy mối tương quan mạnh với xếp hạng của con người. Kiểm tra cho thấy độ chính xác vật lý và chất lượng hiển thị đồng bộ, trong khi khả năng kiểm soát còn yếu. Phân tích khối lượng mở tiết lộ điểm yếu của mô hình trong các tương tác nhiều vòng, với khả năng điều hướng suy giảm nhanh nhất. HY-World 1.5 dẫn đầu về độ ổn định, trong khi LingBot-World nổi bật về tính nhất quán. Góc nhìn từ người thứ nhất và các đối tượng cứng vẫn dễ xử lý, trong khi các đối tượng không cứng tiếp tục là thách thức.
ME AI tin tức, theo giám sát của Beating, Đại học Phúc Đán và đội ngũ Longcat của Meituan đã cùng mở nguồn bộ tiêu chuẩn mô hình thế giới tương tác WBench, đánh giá khả năng mô hình hóa nền tảng của việc tạo video trong các khía cạnh quy luật vật lý, tính nhất quán không gian-thời gian và kiểm soát tương tác. Bộ tiêu chuẩn bao gồm 289 trường hợp kiểm thử và 1.058 vòng tương tác, bao gồm cả góc nhìn từ người thứ nhất và người thứ ba, tích hợp điều hướng, hành động chủ thể, chỉnh sửa sự kiện và chuyển đổi góc nhìn. WBench thống nhất giao diện lệnh văn bản, tư thế 6 bậc tự do và hành động rời rạc để thực hiện so sánh giữa các mô hình kiểm soát khác nhau. Hệ thống đánh giá bao gồm 22 chỉ số tự động, với hệ số tương quan hạng Spearman giữa điểm số và tỷ lệ chiến thắng trong thử nghiệm mù của con người đạt ít nhất 0,94. Kết quả kiểm tra cho thấy, khác với chất lượng video đang dần bão hòa, khả năng kiểm soát tương tác và mức độ hiển thị, tính nhất quán cũng như khả năng vật lý của mô hình gần như tách biệt hoàn toàn. Việc kiểm soát chuyển động camera không đảm bảo tính nhất quán của chủ thể; ví dụ, HY-World 1.5 và Matrix-Game 3.0 có hiệu suất điều hướng xuất sắc nhưng đều gặp phải vấn đề mất danh tính chủ thể và trôi lệch góc nhìn ở góc nhìn người thứ ba. Đồng thời, tính chính xác về vật lý có mối tương quan cao với chất lượng hiển thị nhưng lại gần như không liên quan đến khả năng kiểm soát. Các mô hình thế giới mở nguồn dẫn đầu ở nhiều khía cạnh: HY-World 1.5 đạt điểm cao nhất về điều hướng, LingBot-World đứng đầu về tính nhất quán, còn Matrix-Game 3.0 dẫn đầu trong điều khiển hành động. Các tương tác đa vòng cho thấy hiệu suất của tất cả các mô hình đều suy giảm theo số vòng tăng lên, trong đó điều hướng bị suy giảm nhanh nhất do sai số không gian tích lũy. Kiểm soát hình học rõ ràng có thể giảm hiệu quả hiện tượng trôi lệch; ví dụ, tính ổn định đa vòng của HY-World 1.5 vượt xa Kling 3.0 được điều khiển bằng văn bản. Động lực cảnh quan và tính cứng của chủ thể tạo thành logic nền tảng của độ khó trong bộ tiêu chuẩn: góc nhìn người thứ nhất, cảnh tĩnh và chủ thể robot cứng dễ dàng đạt kết quả tốt, trong khi các chủ thể phi cứng như động vật với sự biến dạng và độ phức tạp về tốc độ vẫn là thách thức lâu dài của ngành. (Nguồn: BlockBeats)
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.