Notícia da ME, 16 de abril (UTC+8): De acordo com o monitoramento da Beating, Jiepao Xingchen lançou oficialmente o StepAudio 2.5 TTS. Diferentemente dos TTS tradicionais que exigem rótulos de emoção pré-definidos, esta versão permite controlar cada detalhe da voz por meio de linguagem natural: rótulos só conseguem expressar “tristeza”, enquanto a linguagem natural pode descrever com mais precisão “tristeza contida, sem tremores de choro, levemente tremula”, e a IA sintetiza a voz correspondente com base nisso. O controle é dividido em três níveis. O controle de contexto global define o tom emocional e o clima da cena para toda a fala, garantindo coerência na expressão dos personagens em diálogos múltiplos; o controle de contexto no texto ajusta no nível da frase o tom, ritmo, pausas, ênfase e sensação de respiração, podendo até retratar os pensamentos internos e subtextos dos personagens; a réplica de voz zero-shot (Zeroshot TTS) não exige treinamento adicional — qualquer gravação de referência pode ser usada para imitar a voz, com emoção e estilo ajustáveis independentemente. As três funcionalidades já estão totalmente disponíveis na plataforma aberta da Jiepao Xingchen e no Step Plan. No mesmo dia, o Google também lançou o Gemini 3.1 Flash TTS, que igualmente substitui rótulos SSML por instruções em linguagem natural para controle refinado e alcançou o topo em avaliações de terceiros. O fato de ambas as empresas lançarem versões com a mesma abordagem no mesmo dia indica que o paradigma de controle em TTS está coletivamente mudando de “escolher rótulos” para “descrever necessidades”. Para criadores de conteúdo auditivo e diretores de dublagem, antes era necessário gravar repetidamente para ajustar emoções; agora, uma única frase pode definir os níveis sutis da voz. (Fonte: BlockBeats)
StepAudio 2.5 TTS é lançado com controle emocional fino
KuCoinFlashCompartilhar






StepAudio 2.5 TTS foi lançado em 16 de abril (UTC+8), oferecendo controle fino de emoções por meio de linguagem natural. Os usuários agora podem especificar tons como "tristeza contida, sem tom de choro, leve tremor". O sistema suporta contexto global, controle no texto e clonagem de voz zero-shot. Notícias na blockchain destacam esse avanço na tecnologia de áudio por IA. Enquanto isso, o Google lançou o Gemini 3.1 Flash TTS, que também utiliza linguagem natural para modulação precisa da fala. Discussões globais sobre políticas de criptoativos podem em breve incluir essas ferramentas como parte de marcos regulatórios mais amplos.
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.