StepAudio 2.5 TTS est lancé avec un contrôle émotionnel finement réglé

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
StepAudio 2.5 TTS a été lancé le 16 avril (UTC+8), offrant un contrôle fin des émotions via le langage naturel. Les utilisateurs peuvent désormais spécifier des tonalités telles que « tristesse retenue, sans ton de pleurs, léger tremblement ». Le système prend en charge le contexte global, le contrôle intégré dans le texte et le clonage vocal zero-shot. Les actualités sur chaîne mettent en avant cette avancée dans la technologie audio par IA. Par ailleurs, Google a publié Gemini 3.1 Flash TTS, qui utilise également le langage naturel pour une modulation précise de la parole. Les discussions mondiales sur la réglementation des cryptomonnaies pourraient bientôt intégrer ces outils dans des cadres réglementaires plus larges.

Selon les nouvelles de ME, le 16 avril (UTC+8), selon les données de Beating, Step星辰 a officiellement lancé StepAudio 2.5 TTS. Contrairement aux TTS traditionnels nécessitant des étiquettes d'émotion prédéfinies, cette génération permet de contrôler chaque détail de la voix par des descriptions en langage naturel : une étiquette ne peut exprimer que « tristesse », tandis que le langage naturel peut décrire plus précisément « une tristesse retenue, sans tremblement de la voix, un léger frémissement ». L'IA génère ensuite la voix correspondante. Le contrôle s'effectue en trois niveaux. Le contrôle du contexte global définit le ton émotionnel et l'ambiance scénique de l'ensemble du discours, assurant la cohérence des expressions des personnages au cours d'une conversation multiround ; le contrôle du contexte interne régit au niveau de la phrase l'intonation, le rythme, les pauses, les accents et la sensation respiratoire, et peut même illustrer les états psychologiques et les sous-entendus des personnages ; la réplication de voix à zéro échantillon (Zeroshot TTS) ne nécessite aucun entraînement supplémentaire — une simple voix de référence suffit à reproduire la voix, avec des ajustements indépendants de l'émotion et du style. Ces trois fonctionnalités sont désormais pleinement disponibles sur la plateforme ouverte de Step星辰 et sur Step Plan. Le même jour, Google a également lancé Gemini 3.1 Flash TTS, qui utilise également des instructions en langage naturel pour remplacer les étiquettes SSML et atteint la première place dans les évaluations tierces. Le fait que les deux entreprises aient publié leurs mises à jour le même jour avec la même approche indique que le paradigme de contrôle des TTS évolue collectivement de « choisir une étiquette » vers « exprimer un besoin ». Pour les créateurs de contenus audio et les directeurs d'interprétation vocale, il n'est plus nécessaire de procéder à des enregistrements répétés pour ajuster les émotions : une simple phrase suffit désormais à définir les nuances fines de la voix. (Source : BlockBeats)

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.