Xiaomi نے OmniVoice کو اوپن سورس کر دیا: 646 زبانوں والا آواز کلوننگ ماڈل، اوپن ڈیٹا پر تربیت یافتہ

Beating Monitor کے مطابق، Xiaomi AI لیب نے OmniVoice کو اوپن سورس کیا ہے، جو 646 زبانوں کے لیے صفر نمونہ آواز کلوننگ TTS (ٹیکسٹ ٹو اسپیچ) ماڈل ہے۔ صرف کچھ سیکنڈز کے ریفرنس آڈیو سے آواز کلون کی جا سکتی ہے، اور یہ بین الزبانی طور پر بھی کام کرتا ہے: ایک چینی ریکارڈنگ دی جائے تو ماڈل اسی آواز میں جاپانی، کورین یا دوسری زبانیں بول سکتا ہے۔ کوڈ، وزن اور ٹریننگ ڈیٹا تمام اوپن سورس ہیں، Apache-2.0 لائسنس کے تحت۔ آرکیٹیکچر کے لحاظ سے، OmniVoice بہت سادہ ہے۔ پورا ماڈل ایک ہی بایڈائرکشنل ٹرانسفارمر پر مشتمل ہے، جو براہ راست متن سے متعدد کوڈ بُک اکووسٹک ٹوکنز (آواز کے ڈسکریٹ کوڈ) تک نقشہ بناتا ہے، بغیر دو مرحلہ پائپ لائن کے جس میں پہلے سیمینٹک ٹوکنز پر تبدیلی کی جائے اور پھر اکووسٹک ٹوکنز۔ اس سادہ ساخت کو دو اہم ڈیزائنز سنبھال رہے ہیں: مکمل کوڈ بُک رینڈم ماسکنگ اسٹریٹجی ٹریننگ کی کارکردگی بڑھاتی ہے، اور بڑے زبان ماڈلز کے پری-ٹرینڈ پیرامیٹرز کا استعمال کرکے تلفظ کی درستگی بڑھائی جاتی ہے۔ انفرینس سپیڈ 40 گنا ریل ٹائم ہے، PyTorch پر براہ راست چلایا جا سکتا ہے، مزید آپٹیمائزیشن کی ضرورت نہیں۔ ٹریننگ ڈیٹا تمام 50 اوپن سورس آواز ڈیٹا سیٹس سے حاصل کیا گیا، جس میں نوائس ریموول اور معیار کے فلٹر لگانے کے بعد کل 580,000 گھنٹے شامل ہیں۔ کم وسائل والی زبانوں کے لیے ڈائنامک اپ-سیمپلنگ استعمال کیا گیا تاکہ ٹریننگ کا اثر برقرار رہے۔ 24 زبانوں کے ٹیسٹ میں، OmniVoice کا آواز مماثلت اور قابل فہمی تمام تجارتی سسٹمز سے زائد ہے۔ 102 زبانوں کے ٹیسٹ میں، قابل فہمی حقیقی ریکارڈنگ کے قریب یا اس سے بھی بہتر ہے۔ 10 گھنٹے سے کم ڈیٹا والی معمولی زبانوں کے لیے بھی آواز تخلیق ممکن ہے۔ آواز کلوننگ کے علاوہ، ماڈل متن کے ذریعہ آواز کو تخصيص کرنے (جیسے "مرد، وسط عمر، بہت منخفض آواز" یا "خاتون، نوجوان، سنچوان بولچال")، نوائس والے ریفرنس آڈیو کو خودکار طور پر صاف کرنے، قہقہ، آہ و غم جیسے جذباتی علامتوں کو شامل کرنے، اور انگریزی اور چینی متن میں متعدد تلفظ والے الفاظ اور خصوصی ناموں کے تلفظ درست کرنے کا بھي سپورٹ فراہم کرتا ہے۔