StepAudio 2.5 TTS est lancé avec un contrôle émotionnel finement réglé

Selon les nouvelles de ME, le 16 avril (UTC+8), selon les données de Beating, Step星辰 a officiellement lancé StepAudio 2.5 TTS. Contrairement aux TTS traditionnels nécessitant des étiquettes d'émotion prédéfinies, cette génération permet de contrôler chaque détail de la voix par des descriptions en langage naturel : une étiquette ne peut exprimer que « tristesse », tandis que le langage naturel peut décrire plus précisément « une tristesse retenue, sans tremblement de la voix, un léger frémissement ». L'IA génère ensuite la voix correspondante. Le contrôle s'effectue en trois niveaux. Le contrôle du contexte global définit le ton émotionnel et l'ambiance scénique de l'ensemble du discours, assurant la cohérence des expressions des personnages au cours d'une conversation multiround ; le contrôle du contexte interne régit au niveau de la phrase l'intonation, le rythme, les pauses, les accents et la sensation respiratoire, et peut même illustrer les états psychologiques et les sous-entendus des personnages ; la réplication de voix à zéro échantillon (Zeroshot TTS) ne nécessite aucun entraînement supplémentaire — une simple voix de référence suffit à reproduire la voix, avec des ajustements indépendants de l'émotion et du style. Ces trois fonctionnalités sont désormais pleinement disponibles sur la plateforme ouverte de Step星辰 et sur Step Plan. Le même jour, Google a également lancé Gemini 3.1 Flash TTS, qui utilise également des instructions en langage naturel pour remplacer les étiquettes SSML et atteint la première place dans les évaluations tierces. Le fait que les deux entreprises aient publié leurs mises à jour le même jour avec la même approche indique que le paradigme de contrôle des TTS évolue collectivement de « choisir une étiquette » vers « exprimer un besoin ». Pour les créateurs de contenus audio et les directeurs d'interprétation vocale, il n'est plus nécessaire de procéder à des enregistrements répétés pour ajuster les émotions : une simple phrase suffit désormais à définir les nuances fines de la voix. (Source : BlockBeats)