Tin tức từ ME News, ngày 29 tháng 5 (UTC+8), theo giám sát của Beating, nhóm ứng dụng mô hình lớn của Xiaomi đã phát hành và mở nguồn khung công tác tạo âm thanh video ControlFoley. Trước đây, việc lồng tiếng video bằng AI chủ yếu dựa trên việc mô hình suy luận âm thanh từ hình ảnh, khiến người sáng tạo khó kiểm soát chính xác phong cách âm thanh. Trọng tâm của ControlFoley là “khả năng kiểm soát”: nó không chỉ có thể lồng tiếng dựa trên hình ảnh, mà còn chấp nhận mô tả văn bản hoặc âm thanh tham chiếu để tạo âm thanh theo ý muốn của người sáng tạo. Ví dụ: thay âm thanh gõ cửa thành “âm thanh gõ kim loại” hoặc dùng âm thanh trống để khớp với hành động đánh bóng tennis, mô hình đều có thể duy trì sự đồng bộ giữa âm thanh và hình ảnh đồng thời tuân theo phong cách được chỉ định. Về mặt nền tảng, ControlFoley sử dụng bộ mã hóa không gian-thời gian âm thanh-video được cải tiến từ CAV-MAE và áp dụng chiến lược “tách rời thời gian-âm sắc”, giao thời điểm phát sinh âm thanh cho video và phong cách âm sắc cho âm thanh tham chiếu. Trong các bài đánh giá đa nhiệm được thiết lập trong bài báo, ControlFoley đạt mức SOTA mở nguồn trên nhiều bài kiểm tra lồng tiếng video thông thường. Ngay cả khi lệnh văn bản mâu thuẫn mạnh với nội dung hình ảnh, mô hình vẫn có thể cân bằng việc tuân thủ văn bản và đồng bộ thời gian. So với hệ thống thương mại đóng nguồn Kling-Foley, ControlFoley có tính cạnh tranh trên nhiều chỉ số như sự đồng bộ ngữ nghĩa, đồng bộ và chất lượng cảm nhận; tuy nhiên, vẫn còn khoảng cách ở một số chỉ số KL divergence trong Kling-Audio-Eval và MovieGen-Audio-Bench. Hiện tại, báo cáo kỹ thuật, mã nguồn, trọng số mô hình và Demo của dự án đều đã được công khai. (Nguồn: BlockBeats)
Xiaomi mở nguồn khung công việc tạo âm thanh video ControlFoley
KuCoinFlashChia sẻ






Đội ngũ mô hình lớn của Xiaomi đã mở nguồn khung công cụ tạo âm thanh video ControlFoley vào ngày 29 tháng Năm. Mô hình hỗ trợ đầu vào hình ảnh, lời nhắc văn bản hoặc âm thanh tham chiếu để kiểm soát phong cách âm thanh. Nó sử dụng chiến lược tách thời gian-tần số và bộ mã hóa CAV-MAE đã được điều chỉnh. Hiệu suất ở mức hàng đầu trong các bài kiểm tra âm thanh video, mặc dù hơi chậm hơn một chút về độ phân kỳ KL. Các nhà giao dịch sử dụng phân tích khối lượng vị thế có thể thấy sự phát triển này liên quan đến đầu tư giá trị trong tiền mã hóa.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.