وفقًا لمراقبة Beating، أطلق مختبر الذكاء الاصطناعي لشركة Xiaomi فريق Kaldi الجديد نموذج OmniVoice مفتوح المصدر، وهو نموذج TTS (نص إلى كلام) بدون عينة يدعم 646 لغة. يمكنه تقليد نبرة الصوت باستخدام بضع ثوانٍ فقط من صوت مرجعي، حتى عبر اللغات: عند إدخال تسجيل صوتي بالصينية، يمكن للنموذج أن يتحدث باللغة اليابانية أو الكورية أو غيرها بنفس الصوت. الكود والأوزان وبيانات التدريب متاحة مفتوحة المصدر جميعها تحت ترخيص Apache-2.0. من حيث البنية، يتبع OmniVoice نهجًا مبسطًا جدًا. يحتوي النموذج بأكمله على Transformer ثنائي الاتجاه واحد فقط، يحول مباشرة النص إلى رموز صوتية متعددة المخازن (ترميز منفصل للصوت)، دون الحاجة إلى خطوة مزدوجة تبدأ بتحويل النص إلى رموز دلالية ثم إلى رموز صوتية. يدعم هذا الهيكل البسيط تصميمان أساسيان: استراتيجية التعتيم العشوائي لجميع المخازن لتحسين كفاءة التدريب، واستخدام معلمات التدريب المسبق لنموذج اللغة الكبيرة لتحسين دقة النطق. سرعة الاستنتاج 40 ضعفًا للوقت الحقيقي، ويمكن تشغيله مباشرةً باستخدام PyTorch دون الحاجة إلى تحسينات إضافية. تم جمع بيانات التدريب بالكامل من 50 مجموعة بيانات صوتية مفتوحة المصدر، وبعد تنقيتها وتصفية جودتها بلغ إجمالي 580,000 ساعة. تم استخدام التكبير الديناميكي للغات ذات الموارد المنخفضة لضمان فعالية التدريب. في اختبارات على 24 لغة، تفوق OmniVoice في تشابه الصوت وقابلية الفهم على العديد من الأنظمة التجارية. وفي اختبارات على 102 لغة، كانت قابلية الفهم قريبة من أو حتى أفضل من التسجيلات الحقيقية. ويمكنه توليد صوت حتى للغات ذات بيانات تدريب أقل من 10 ساعات. إلى جانب تقليد الصوت، يدعم النموذج أيضًا تخصيص نبرة الصوت عبر وصف نصي (مثل "ذكر، متوسط العمر، نبرة منخفضة جدًا" أو "أنثى، شابة، لهجة سيتشوان")، وخفض الضوضاء التلقائي للصوت المرجعي الملوث، وإدراج رموز نبرة مثل الضحك والأنين، وتصحيح نطق الكلمات متعددة القراءات والأسماء الخاصة بالصينية والإنجليزية.
تُصدر شاومي OmniVoice مفتوح المصدر: نموذج تقليد الصوت لـ 646 لغة مدرب على بيانات مفتوحة
MarsBitمشاركة






فريق كالدي من مختبر شيائومي للذكاء الاصطناعي قد أطلق مفتوح المصدر OmniVoice، وهو نموذج تحويل النص إلى كلام بصفر أمثلة يدعم 646 لغة. يمكن للنموذج تقليد نبرة الصوت باستخدام بضع ثوانٍ فقط من صوت مرجعي، ويعمل عبر اللغات. تم تدريبه على بيانات مفتوحة المصدر، ويتفوق على الأنظمة التجارية في التشابه الصوتي ووضوح الكلام. تُظهر بيانات السلسلة اهتمامًا متزايدًا بالأدوات الذكية الاصطناعية، مع ارتفاع مستمر في المراكز المفتوحة للمشاريع ذات الصلة. يستخدم النموذج ترانسفورمر أحادي الاتجاهين وتم تحسينه للحصول على استنتاج سريع.
المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.