أخبار ME، في 29 مايو (UTC+8)، وفقًا لمراقبة Beating، أطلقت فرقة تطبيقات النموذج الكبير لشركة Xiaomi إطارًا مفتوح المصدر لإنشاء الصوت والمؤثرات الصوتية للفيديو يُسمى ControlFoley. في الماضي، كان توليد الصوت للفيديوهات الذكية يعتمد بشكل رئيسي على نماذج تتنبأ بالصوت بناءً على المشهد، مما جعل من الصعب على المبدعين التحكم الدقيق في نمط الصوت. يركز ControlFoley على "القابلية للتحكم": فهو قادر على توليد صوت بناءً على المشهد، كما يمكنه قبول وصف نصي أو صوت مرجعي لضبط الصوت وفقًا لنية المبدع. على سبيل المثال، يمكنه تغيير صوت نقر الباب إلى "صوت ضرب معدني"، أو مطابقة حركة ضرب التنس بأسلوب طبل، مع الحفاظ على التزامن بين الصوت والصورة وفقًا للنمط المحدد. من الناحية الأساسية، يستخدم ControlFoley مشفرًا زمنيًا-مكانيًا للصوت والفيديو مبنيًا على CAV-MAE، مع تطبيق استراتيجية "فك الارتباط بين الزمن واللون الصوتي"، حيث يُسنَد وقت حدوث الصوت إلى الفيديو، ويُسنَد نمط اللون الصوتي إلى الصوت المرجعي. في تقييمات متعددة المهام المحددة في البحث، حقق ControlFoley مستوى SOTA مفتوح المصدر في عدة اختبارات شائعة لتوليد الصوت للفيديوهات. حتى عند وجود تعارض قوي بين التعليمات النصية ومحتوى المشهد، يظل النموذج قادرًا على تحقيق التزامن الزمني والامتثال للنص. مقارنةً بالأنظمة التجارية المغلقة Kling-Foley، يتمتع ControlFoley بقدرة تنافسية في مؤشرات متعددة مثل التوافق الدلالي والتزامن وجودة الإدراك؛ لكنه لا يزال يعاني من فجوة في بعض مؤشرات تطابق KL في Kling-Audio-Eval وMovieGen-Audio-Bench. حاليًا، تم فتح تقرير التقني، والكود، وأوزان النموذج، والعرض التوضيحي للمشروع. (المصدر: BlockBeats)
تقوم Xiaomi بنشر مفتوح المصدر لإطار عمل توليد الصوت للفيديو ControlFoley
KuCoinFlashمشاركة






فريق النماذج الكبيرة في شاومي أطلق مفتوح المصدر إطار عمل ControlFoley لإنشاء الصوت من الفيديو في 29 مايو. يدعم النموذج المدخلات البصرية، أو محفزات النص، أو صوت مرجعي للتحكم في نمط الصوت. يستخدم استراتيجية فصل الزمن-النبرة ومحرّك CAV-MAE معدل. الأداء في اختبارات صوت الفيديو هو من الطراز الأول، على الرغم من أنه يتأخر قليلاً في انحراف كولباك-ليبلر. قد يجد المتداولون الذين يستخدمون تحليل المراكز المفتوحة هذا التطور ذا صلة للاستثمار القيمي في العملات المشفرة.
المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.