Xiaomi abre o código do OmniVoice: modelo de clonagem de voz em 646 idiomas treinado com dados abertos

icon MarsBit
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
A equipe Kaldi do Xiaomi AI Lab open-sourcou o OmniVoice, um modelo de síntese de fala com zero exemplos que suporta 646 idiomas. O modelo pode clonar a timbre da voz usando apenas alguns segundos de áudio de referência e funciona entre idiomas. Treinado com dados de código aberto, supera sistemas comerciais em similaridade vocal e inteligibilidade. Dados on-chain mostram crescente interesse em ferramentas de IA, com o open interest em projetos relacionados aumentando steady. O modelo utiliza um único Transformer bidirecional e é otimizado para inferência rápida.

Segundo o monitoramento da Beating, o novo laboratório de IA da Xiaomi lançou de código aberto o OmniVoice, um modelo TTS (texto para fala) de clonagem de voz zero-shot que suporta 646 idiomas. Com apenas alguns segundos de áudio de referência, é possível clonar a voz — inclusive em idiomas diferentes: ao fornecer um áudio em chinês, o modelo pode reproduzir a mesma voz em japonês, coreano ou outros idiomas. O código, os pesos e os dados de treinamento estão todos disponíveis de código aberto sob a licença Apache-2.0. Arquitetonicamente, o OmniVoice adota uma abordagem minimalista. O modelo inteiro consiste em apenas um Transformer bidirecional que mapeia diretamente texto para tokens acústicos de múltiplos códigos (codificações discretas do som), eliminando a necessidade de um pipeline em duas etapas que primeiro converte texto em tokens semânticos e depois em tokens acústicos. Dois projetos-chave sustentam essa estrutura simples: uma estratégia de mascaramento aleatório de todos os códigos para aumentar a eficiência do treinamento e a inicialização com parâmetros pré-treinados de grandes modelos de linguagem para melhorar a precisão da pronúncia. A velocidade de inferência é 40 vezes em tempo real, rodando diretamente no PyTorch sem necessidade de otimizações adicionais. Todos os dados de treinamento foram coletados de 50 conjuntos de dados de voz de código aberto, resultando em 580.000 horas após filtragem e desnoisagem. Idiomas com poucos recursos utilizam upsample dinâmico para garantir eficácia no treinamento. Em testes com 24 idiomas, o OmniVoice superou vários sistemas comerciais em similaridade e inteligibilidade da voz. Em testes com 102 idiomas, a inteligibilidade se aproximou ou superou gravações reais. Até idiomas com menos de 10 horas de dados de treinamento conseguem gerar síntese de voz. Além da clonagem de voz, o modelo também suporta personalização de voz por descrição textual (por exemplo, “homem, meia-idade, tom muito grave” ou “mulher, jovem, dialeto Sichuan”), redução automática de ruído em áudios de referência com ruído, inserção de símbolos expressivos como risos e suspiros, e correção da pronúncia de polissêmicos em chinês e inglês e nomes próprios.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.