StepAudio 2.5 TTS é lançado com controle emocional fino

Notícia da ME, 16 de abril (UTC+8): De acordo com o monitoramento da Beating, Jiepao Xingchen lançou oficialmente o StepAudio 2.5 TTS. Diferentemente dos TTS tradicionais que exigem rótulos de emoção pré-definidos, esta versão permite controlar cada detalhe da voz por meio de linguagem natural: rótulos só conseguem expressar “tristeza”, enquanto a linguagem natural pode descrever com mais precisão “tristeza contida, sem tremores de choro, levemente tremula”, e a IA sintetiza a voz correspondente com base nisso. O controle é dividido em três níveis. O controle de contexto global define o tom emocional e o clima da cena para toda a fala, garantindo coerência na expressão dos personagens em diálogos múltiplos; o controle de contexto no texto ajusta no nível da frase o tom, ritmo, pausas, ênfase e sensação de respiração, podendo até retratar os pensamentos internos e subtextos dos personagens; a réplica de voz zero-shot (Zeroshot TTS) não exige treinamento adicional — qualquer gravação de referência pode ser usada para imitar a voz, com emoção e estilo ajustáveis independentemente. As três funcionalidades já estão totalmente disponíveis na plataforma aberta da Jiepao Xingchen e no Step Plan. No mesmo dia, o Google também lançou o Gemini 3.1 Flash TTS, que igualmente substitui rótulos SSML por instruções em linguagem natural para controle refinado e alcançou o topo em avaliações de terceiros. O fato de ambas as empresas lançarem versões com a mesma abordagem no mesmo dia indica que o paradigma de controle em TTS está coletivamente mudando de “escolher rótulos” para “descrever necessidades”. Para criadores de conteúdo auditivo e diretores de dublagem, antes era necessário gravar repetidamente para ajustar emoções; agora, uma única frase pode definir os níveis sutis da voz. (Fonte: BlockBeats)