ME न्यूज़ के अनुसार, 29 मई (UTC+8) को, Beating के मॉनिटरिंग के अनुसार, शाओमी के बड़े मॉडल एप्लिकेशन टीम ने वीडियो ऑडियो जेनरेशन फ्रेमवर्क ControlFoley को जारी किया और ओपन सोर्स किया। पहले, AI वीडियो डबिंग मुख्य रूप से मॉडल द्वारा दृश्य के आधार पर ध्वनि का अनुमान लगाकर की जाती थी, जिससे सृजनकर्ता को ध्वनि शैली को सटीकता से नियंत्रित करने में कठिनाई होती थी। ControlFoley का मुख्य ध्यान 'नियंत्रणयोग्यता' पर है: यह न केवल दृश्य के आधार पर डबिंग कर सकता है, बल्कि पाठ वर्णन या संदर्भ ऑडियो को भी स्वीकार कर सकता है, ताकि ध्वनि सृजनकर्ता के इरादे के अनुसार उत्पन्न हो। उदाहरण के लिए, दरवाज़ा खटखटाने की आवाज़ को 'धातु की खटखटाहट' में बदलना, या ड्रम की ध्वनि का उपयोग टेनिस की प्रहार हरकत के साथ मेल खाने के लिए करना—मॉडल सभी स्थितियों में ध्वनि-दृश्य समन्वय को बनाए रखते हुए निर्दिष्ट शैली के साथ मेल खा सकता है। तकनीकी रूप से, ControlFoley CAV-MAE पर आधारित समय-अंतरिक्ष ऑडियो-वीडियो कोडेक का उपयोग करता है, और 'समय-टोन डिकपलिंग' रणनीति को पेश करता है, जहाँ ध्वनि के होने का समय वीडियो को सौंपा जाता है, और ध्वनि की शैली संदर्भ ऑडियो को। पेपर में परिभाषित मल्टी-टास्क मूल्यांकन में, ControlFoley कई सामान्य वीडियो डबिंग परीक्षणों में ओपन-सोर्स SOTA स्तर प्राप्त करता है। यहाँ तक कि जब पाठ निर्देश और दृश्य सामग्री में मजबूत संघर्ष होता है, मॉडल पाठ का पालन करते हुए समय समन्वय को भी संतुलित करता है। 商业闭源系统 Kling-Foley के संबंध में, ControlFoley सामग्री समन्वय, समय समन्वय, और संवेदनशील गुणवत्ता सहित कई सूचकांकों में प्रतिस्पर्धी है; हालाँकि, Kling-Audio-Eval और MovieGen-Audio-Bench के कुछ KL-विचलन मिलान सूचकांकों पर अभी अंतर है। वर्तमान में, प्रोजेक्ट की प्रौद्योगिकी प्रतिवेदन, कोड, मॉडल वजन, और Demo सभी उपलब्ध हैं। (स्रोत: BlockBeats)
Xiaomi ने वीडियो ध्वनि उत्पादन फ्रेमवर्क ControlFoley को ओपन सोर्स किया है
KuCoinFlashसाझा करें






शियोमी की बड़े मॉडल टीम ने 29 मई को वीडियो ध्वनि उत्पादन फ्रेमवर्क ControlFoley को ओपन-सोर्स किया। यह मॉडल ध्वनि शैली नियंत्रण के लिए दृश्य इनपुट, टेक्स्ट प्रॉम्प्ट या संदर्भ ऑडियो का समर्थन करता है। यह एक समय-पिच डिकपलिंग रणनीति और एक संशोधित CAV-MAE एन्कोडर का उपयोग करता है। वीडियो ध्वनि परीक्षणों में इसका प्रदर्शन शीर्ष स्तरीय है, हालांकि KL विचलन में यह थोड़ा पीछे है। ओपन इंटरेस्ट विश्लेषण का उपयोग करने वाले ट्रेडर्स इस विकास को क्रिप्टो में मूल्य निवेश के लिए प्रासंगिक पा सकते हैं।
स्रोत:मूल दिखाएं
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।