تُصدر شاومي OmniVoice مفتوح المصدر: نموذج تقليد الصوت لـ 646 لغة مدرب على بيانات مفتوحة

وفقًا لمراقبة Beating، أطلق مختبر الذكاء الاصطناعي لشركة Xiaomi فريق Kaldi الجديد نموذج OmniVoice مفتوح المصدر، وهو نموذج TTS (نص إلى كلام) بدون عينة يدعم 646 لغة. يمكنه تقليد نبرة الصوت باستخدام بضع ثوانٍ فقط من صوت مرجعي، حتى عبر اللغات: عند إدخال تسجيل صوتي بالصينية، يمكن للنموذج أن يتحدث باللغة اليابانية أو الكورية أو غيرها بنفس الصوت. الكود والأوزان وبيانات التدريب متاحة مفتوحة المصدر جميعها تحت ترخيص Apache-2.0. من حيث البنية، يتبع OmniVoice نهجًا مبسطًا جدًا. يحتوي النموذج بأكمله على Transformer ثنائي الاتجاه واحد فقط، يحول مباشرة النص إلى رموز صوتية متعددة المخازن (ترميز منفصل للصوت)، دون الحاجة إلى خطوة مزدوجة تبدأ بتحويل النص إلى رموز دلالية ثم إلى رموز صوتية. يدعم هذا الهيكل البسيط تصميمان أساسيان: استراتيجية التعتيم العشوائي لجميع المخازن لتحسين كفاءة التدريب، واستخدام معلمات التدريب المسبق لنموذج اللغة الكبيرة لتحسين دقة النطق. سرعة الاستنتاج 40 ضعفًا للوقت الحقيقي، ويمكن تشغيله مباشرةً باستخدام PyTorch دون الحاجة إلى تحسينات إضافية. تم جمع بيانات التدريب بالكامل من 50 مجموعة بيانات صوتية مفتوحة المصدر، وبعد تنقيتها وتصفية جودتها بلغ إجمالي 580,000 ساعة. تم استخدام التكبير الديناميكي للغات ذات الموارد المنخفضة لضمان فعالية التدريب. في اختبارات على 24 لغة، تفوق OmniVoice في تشابه الصوت وقابلية الفهم على العديد من الأنظمة التجارية. وفي اختبارات على 102 لغة، كانت قابلية الفهم قريبة من أو حتى أفضل من التسجيلات الحقيقية. ويمكنه توليد صوت حتى للغات ذات بيانات تدريب أقل من 10 ساعات. إلى جانب تقليد الصوت، يدعم النموذج أيضًا تخصيص نبرة الصوت عبر وصف نصي (مثل "ذكر، متوسط العمر، نبرة منخفضة جدًا" أو "أنثى، شابة، لهجة سيتشوان")، وخفض الضوضاء التلقائي للصوت المرجعي الملوث، وإدراج رموز نبرة مثل الضحك والأنين، وتصحيح نطق الكلمات متعددة القراءات والأسماء الخاصة بالصينية والإنجليزية.