Xiaomi نے OmniVoice کو اوپن سورس کر دیا: 646 زبانوں والا آواز کلوننگ ماڈل، اوپن ڈیٹا پر تربیت یافتہ

icon MarsBit
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
شیائومی AI لیب کی کالڈی ٹیم نے OmniVoice کو اوپن سورس کر دیا ہے، جو 646 زبانوں کے لیے صفر شاٹ ٹیکسٹ-ٹو-اسپیچ ماڈل ہے۔ یہ ماڈل صرف کچھ سیکنڈز کے ریفرنس آڈیو کے ساتھ آواز کے ٹائمبر کو کلون کر سکتا ہے اور زبانوں کے درمیان کام کرتا ہے۔ اسے اوپن سورس ڈیٹا پر تربیت دی گئی ہے اور یہ تجارتی نظاموں سے آواز کی مماثلت اور قابلِ فہمی میں بہتر کام کرتا ہے۔ آن چین ڈیٹا سے پتہ چلتا ہے کہ AI ٹولز میں دلچسپی بڑھ رہی ہے، جبکہ متعلقہ منصوبوں میں اوپن انٹریسٹ مستقل طور پر بڑھ رہا ہے۔ یہ ماڈل ایک منفرد بائی ڈائریکشنل ٹرانسفارمر استعمال کرتا ہے اور تیز نتائج کے لیے آپٹمائزڈ ہے۔

Beating Monitor کے مطابق، Xiaomi AI لیب نے OmniVoice کو اوپن سورس کیا ہے، جو 646 زبانوں کے لیے صفر نمونہ آواز کلوننگ TTS (ٹیکسٹ ٹو اسپیچ) ماڈل ہے۔ صرف کچھ سیکنڈز کے ریفرنس آڈیو سے آواز کلون کی جا سکتی ہے، اور یہ بین الزبانی طور پر بھی کام کرتا ہے: ایک چینی ریکارڈنگ دی جائے تو ماڈل اسی آواز میں جاپانی، کورین یا دوسری زبانیں بول سکتا ہے۔ کوڈ، وزن اور ٹریننگ ڈیٹا تمام اوپن سورس ہیں، Apache-2.0 لائسنس کے تحت۔ آرکیٹیکچر کے لحاظ سے، OmniVoice بہت سادہ ہے۔ پورا ماڈل ایک ہی بایڈائرکشنل ٹرانسفارمر پر مشتمل ہے، جو براہ راست متن سے متعدد کوڈ بُک اکووسٹک ٹوکنز (آواز کے ڈسکریٹ کوڈ) تک نقشہ بناتا ہے، بغیر دو مرحلہ پائپ لائن کے جس میں پہلے سیمینٹک ٹوکنز پر تبدیلی کی جائے اور پھر اکووسٹک ٹوکنز۔ اس سادہ ساخت کو دو اہم ڈیزائنز سنبھال رہے ہیں: مکمل کوڈ بُک رینڈم ماسکنگ اسٹریٹجی ٹریننگ کی کارکردگی بڑھاتی ہے، اور بڑے زبان ماڈلز کے پری-ٹرینڈ پیرامیٹرز کا استعمال کرکے تلفظ کی درستگی بڑھائی جاتی ہے۔ انفرینس سپیڈ 40 گنا ریل ٹائم ہے، PyTorch پر براہ راست چلایا جا سکتا ہے، مزید آپٹیمائزیشن کی ضرورت نہیں۔ ٹریننگ ڈیٹا تمام 50 اوپن سورس آواز ڈیٹا سیٹس سے حاصل کیا گیا، جس میں نوائس ریموول اور معیار کے فلٹر لگانے کے بعد کل 580,000 گھنٹے شامل ہیں۔ کم وسائل والی زبانوں کے لیے ڈائنامک اپ-سیمپلنگ استعمال کیا گیا تاکہ ٹریننگ کا اثر برقرار رہے۔ 24 زبانوں کے ٹیسٹ میں، OmniVoice کا آواز مماثلت اور قابل فہمی تمام تجارتی سسٹمز سے زائد ہے۔ 102 زبانوں کے ٹیسٹ میں، قابل فہمی حقیقی ریکارڈنگ کے قریب یا اس سے بھی بہتر ہے۔ 10 گھنٹے سے کم ڈیٹا والی معمولی زبانوں کے لیے بھی آواز تخلیق ممکن ہے۔ آواز کلوننگ کے علاوہ، ماڈل متن کے ذریعہ آواز کو تخصيص کرنے (جیسے "مرد، وسط عمر، بہت منخفض آواز" یا "خاتون، نوجوان، سنچوان بولچال")، نوائس والے ریفرنس آڈیو کو خودکار طور پر صاف کرنے، قہقہ، آہ و غم جیسے جذباتی علامتوں کو شامل کرنے، اور انگریزی اور چینی متن میں متعدد تلفظ والے الفاظ اور خصوصی ناموں کے تلفظ درست کرنے کا بھي سپورٹ فراہم کرتا ہے۔

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔