Xiaomi open-source OmniVoice : modèle de clonage vocal en 646 langues formé sur des données ouvertes

icon MarsBit
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
L'équipe Kaldi du Xiaomi AI Lab a open-sourcé OmniVoice, un modèle texte-voix zéro-shot prenant en charge 646 langues. Le modèle peut cloner la timbre de la voix à l'aide de quelques secondes seulement d'audio de référence et fonctionne entre les langues. Formé sur des données open-source, il surpasse les systèmes commerciaux en termes de similarité vocale et d'intelligibilité. Les données on-chain montrent un intérêt croissant pour les outils IA, avec une ouverture nette en hausse constante pour les projets associés. Le modèle utilise un seul Transformer bidirectionnel et est optimisé pour une inférence rapide.

Selon les données de Beating Monitoring, l'équipe Kaldi de nouvelle génération du laboratoire d'IA de Xiaomi a open-sourcé OmniVoice, un modèle TTS (text-to-speech) à zéro échantillon prenant en charge 646 langues. Il peut cloner une voix à partir de quelques secondes d'audio de référence, même entre langues : une enregistrement en chinois permet au modèle de produire du japonais, du coréen ou d'autres langues avec la même voix. Le code, les poids et les données d'entraînement sont entièrement open-source, sous licence Apache-2.0. Sur le plan architecturale, OmniVoice adopte une approche extrêmement simplifiée. Le modèle entier se compose d'un seul Transformer bidirectionnel, qui mappe directement le texte en tokens acoustiques multi-codebooks (codages discrets du son), sans passer par une pipeline en deux étapes consistant d'abord à convertir le texte en tokens sémantiques, puis en tokens acoustiques. Deux conceptions clés soutiennent cette structure simple : une stratégie de masquage aléatoire complet des codebooks pour améliorer l'efficacité d'entraînement, et l'initialisation à l'aide des paramètres pré-entraînés d'un grand modèle linguistique pour augmenter la précision de la prononciation. La vitesse d'inférence atteint 40 fois la vitesse en temps réel, et il peut être exécuté directement avec PyTorch sans optimisation supplémentaire. Les données d'entraînement proviennent entièrement de 50 jeux de données vocales open-source, filtrées et débruitées pour un total de 580 000 heures. Les langues à faibles ressources utilisent un échantillonnage dynamique pour garantir la qualité d'entraînement. Lors de tests sur 24 langues, OmniVoice a surpassé plusieurs systèmes commerciaux en termes de similarité vocale et de compréhensibilité. Sur 102 langues, sa compréhensibilité approche ou dépasse même celle des enregistrements réels. Même pour les langues avec moins de 10 heures de données d'entraînement, la synthèse vocale est possible. Outre le clonage vocal, le modèle prend en charge la personnalisation de la voix par description textuelle (ex. : « homme, âge moyen, tonalité très grave » ou « femme, jeune, dialecte du Sichuan »), le débruitage automatique des audios de référence bruités, l'insertion de symboles d'émotion tels que rires et soupirs, ainsi que la correction de la prononciation des caractères polyphones en chinois et anglais et des noms propres.

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.