شیائومی نے ویڈیو آواز جنریشن فریم ورک ControlFoley کو اوپن سورس کر دیا ہے

iconKuCoinFlash
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
شیائومی کی بڑی ماڈل ٹیم نے 29 مئی کو ویڈیو آواز جنریشن فریم ورک ControlFoley کو اوپن سورس کیا۔ یہ ماڈل آواز کے انداز کے لیے ویژول ان پٹ، ٹیکسٹ پرامپٹس یا ریفرنس آواز کی سہولت فراہم کرتا ہے۔ یہ ایک ٹائم-پچ ڈیکوپلنگ اسٹریٹجی اور ایک ترمیم شدہ CAV-MAE اینکوڈر استعمال کرتا ہے۔ ویڈیو آواز ٹیسٹس میں اس کی کارکردگی سب سے بہترین ہے، حالانکہ KL ڈائورجنس میں یہ تھوڑی سی پیچیدگی کا شکار ہے۔ اوپن انٹریسٹ تجزیہ استعمال کرنے والے ٹریڈرز اس ترقی کو کرپٹو میں ویلیو انویسٹنگ کے لیے متعلقہ پا سکتے ہیں۔

ME نیوز کے مطابق، 29 مئی (UTC+8) کو، Beating کی نگرانی کے مطابق، شاومی کا بڑا ماڈل ایپلیکیشن ٹیم نے ویڈیو آواز جنریشن فریم ورک ControlFoley کو جاری اور اوپن سورس کیا ہے۔ پہلے AI ویڈیو ڈبنگ میں ماڈل صرف تصویر کے مطابق آواز کا اندازہ لگاتا تھا، جس کی وجہ سے تخلیق کاروں کے لیے آواز کے انداز کو درست طور پر کنٹرول کرنا مشکل ہوتا تھا۔ ControlFoley کا مرکزی نقطہ "قابل کنٹرول ہونا" ہے: یہ نہ صرف تصویر کے مطابق آواز دے سکتا ہے، بلکہ متن کی تفصیل یا رفرنس آواز بھی قبول کرتا ہے تاکہ آواز تخلیق کار کے ارادے کے مطابق تیار ہو۔ مثال کے طور پر، دروازہ دستک کی آواز کو "دھاتی تکڑے کی آواز" میں تبدیل کرنا، یا ڈرم کی آواز استعمال کرکے ٹینس شاٹ کے حرکات کے ساتھ ملا دینا، ماڈل دونوں صورتوں میں آواز اور تصویر کے درمیان تطابق برقرار رکھتے ہوئے مخصوص انداز کو اپنا لیتا ہے۔ بنیادی طور پر، ControlFoley نے CAV-MAE پر مبنی اسپیٹیوٹمپورل آڈیو ویڈیو انجن استعمال کیا ہے اور "ٹائم-ٹونل ڈیکوپلنگ" حکمت عملی شامل کی ہے، جس میں آواز کے واقعہ کا وقت ویڈیو کو دیا جاتا ہے اور آواز کا انداز رفرنس آواز کو دیا جاتا ہے۔ پیپر میں طے شدہ متعدد انجن اقدار میں، ControlFoley نے متعدد عام ویڈیو ڈبنگ ٹیسٹس پر اوپن سورس SOTA سطح حاصل کی ہے۔ حتیٰ کہ جب متن کے حکم اور تصویر کے مواد میں شدید تضاد ہو، تو ماڈل متن کے پابند رہنے اور وقت کے تطابق دونوں کو برقرار رکھتا ہے۔ تجارتی بند ماڈل Kling-Foley کے مقابلے میں، ControlFoley سمنٹک الائنمنٹ، سنسن، اور پرسرپٹوئل کوالٹی جیسے متعدد اشاریوں میں مقابلہ کرنے لائق ہے؛ لیکن Kling-Audio-Eval اور MovieGen-Audio-Bench کے بعض KL ڈائسٹنس مچنگ اشاروں میں اب بھی فرق موجود ہے۔ اب تک، منصوبے کا ٹکنکل رپورٹ، کوڈ، ماڈل وزن، اور ڈیمو سبھی عام عوام کے لیے دسترس پذیر ہیں۔ (ذرائع: BlockBeats)

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔