Xiaomi open-source OmniVoice : modèle de clonage vocal en 646 langues formé sur des données ouvertes

Selon les données de Beating Monitoring, l'équipe Kaldi de nouvelle génération du laboratoire d'IA de Xiaomi a open-sourcé OmniVoice, un modèle TTS (text-to-speech) à zéro échantillon prenant en charge 646 langues. Il peut cloner une voix à partir de quelques secondes d'audio de référence, même entre langues : une enregistrement en chinois permet au modèle de produire du japonais, du coréen ou d'autres langues avec la même voix. Le code, les poids et les données d'entraînement sont entièrement open-source, sous licence Apache-2.0. Sur le plan architecturale, OmniVoice adopte une approche extrêmement simplifiée. Le modèle entier se compose d'un seul Transformer bidirectionnel, qui mappe directement le texte en tokens acoustiques multi-codebooks (codages discrets du son), sans passer par une pipeline en deux étapes consistant d'abord à convertir le texte en tokens sémantiques, puis en tokens acoustiques. Deux conceptions clés soutiennent cette structure simple : une stratégie de masquage aléatoire complet des codebooks pour améliorer l'efficacité d'entraînement, et l'initialisation à l'aide des paramètres pré-entraînés d'un grand modèle linguistique pour augmenter la précision de la prononciation. La vitesse d'inférence atteint 40 fois la vitesse en temps réel, et il peut être exécuté directement avec PyTorch sans optimisation supplémentaire. Les données d'entraînement proviennent entièrement de 50 jeux de données vocales open-source, filtrées et débruitées pour un total de 580 000 heures. Les langues à faibles ressources utilisent un échantillonnage dynamique pour garantir la qualité d'entraînement. Lors de tests sur 24 langues, OmniVoice a surpassé plusieurs systèmes commerciaux en termes de similarité vocale et de compréhensibilité. Sur 102 langues, sa compréhensibilité approche ou dépasse même celle des enregistrements réels. Même pour les langues avec moins de 10 heures de données d'entraînement, la synthèse vocale est possible. Outre le clonage vocal, le modèle prend en charge la personnalisation de la voix par description textuelle (ex. : « homme, âge moyen, tonalité très grave » ou « femme, jeune, dialecte du Sichuan »), le débruitage automatique des audios de référence bruités, l'insertion de symboles d'émotion tels que rires et soupirs, ainsi que la correction de la prononciation des caractères polyphones en chinois et anglais et des noms propres.