Xiaomi abre o código do OmniVoice: modelo de clonagem de voz em 646 idiomas treinado com dados abertos

Segundo o monitoramento da Beating, o novo laboratório de IA da Xiaomi lançou de código aberto o OmniVoice, um modelo TTS (texto para fala) de clonagem de voz zero-shot que suporta 646 idiomas. Com apenas alguns segundos de áudio de referência, é possível clonar a voz — inclusive em idiomas diferentes: ao fornecer um áudio em chinês, o modelo pode reproduzir a mesma voz em japonês, coreano ou outros idiomas. O código, os pesos e os dados de treinamento estão todos disponíveis de código aberto sob a licença Apache-2.0. Arquitetonicamente, o OmniVoice adota uma abordagem minimalista. O modelo inteiro consiste em apenas um Transformer bidirecional que mapeia diretamente texto para tokens acústicos de múltiplos códigos (codificações discretas do som), eliminando a necessidade de um pipeline em duas etapas que primeiro converte texto em tokens semânticos e depois em tokens acústicos. Dois projetos-chave sustentam essa estrutura simples: uma estratégia de mascaramento aleatório de todos os códigos para aumentar a eficiência do treinamento e a inicialização com parâmetros pré-treinados de grandes modelos de linguagem para melhorar a precisão da pronúncia. A velocidade de inferência é 40 vezes em tempo real, rodando diretamente no PyTorch sem necessidade de otimizações adicionais. Todos os dados de treinamento foram coletados de 50 conjuntos de dados de voz de código aberto, resultando em 580.000 horas após filtragem e desnoisagem. Idiomas com poucos recursos utilizam upsample dinâmico para garantir eficácia no treinamento. Em testes com 24 idiomas, o OmniVoice superou vários sistemas comerciais em similaridade e inteligibilidade da voz. Em testes com 102 idiomas, a inteligibilidade se aproximou ou superou gravações reais. Até idiomas com menos de 10 horas de dados de treinamento conseguem gerar síntese de voz. Além da clonagem de voz, o modelo também suporta personalização de voz por descrição textual (por exemplo, “homem, meia-idade, tom muito grave” ou “mulher, jovem, dialeto Sichuan”), redução automática de ruído em áudios de referência com ruído, inserção de símbolos expressivos como risos e suspiros, e correção da pronúncia de polissêmicos em chinês e inglês e nomes próprios.