StepAudio 2.5 TTS Diluncurkan dengan Kontrol Emosi yang Halus

Berita ME, 16 April (UTC+8), menurut pemantauan Beating, Step星辰 secara resmi meluncurkan StepAudio 2.5 TTS. Berbeda dengan TTS tradisional yang memerlukan label emosi pra-atur, generasi ini mendukung pengendalian setiap detail suara melalui deskripsi bahasa alami: label hanya dapat menyatakan "sedih", sedangkan bahasa alami dapat menjelaskan lebih lanjut "kesedihan yang terkendali, tanpa suara menangis, hanya bergetar halus", dan AI menghasilkan nada suara yang sesuai. Kontrol dibagi menjadi tiga lapisan. Konteks global menetapkan nada emosional dan suasana keseluruhan ucapan, memastikan konsistensi ekspresi karakter dalam percakapan berulang; konteks teks mengatur nada, irama, jeda, penekanan, dan sensasi napas pada tingkat kalimat, bahkan dapat menggambarkan aktivitas psikologis dan subteks karakter; rekaman nada suara nol-sample (Zeroshot TTS) tidak memerlukan pelatihan ulang—rekaman referensi apa pun dapat meniru nada suara, dengan emosi dan gaya yang dapat disesuaikan secara independen. Ketiga fitur ini telah dirilis penuh di platform terbuka Step星辰 dan Step Plan. Pada hari yang sama, Google juga meluncurkan Gemini 3.1 Flash TTS, yang juga menggunakan perintah bahasa alami untuk menggantikan label SSML guna mencapai kontrol halus, dan menduduki peringkat teratas dalam evaluasi pihak ketiga. Kedua perusahaan merilis versi mereka pada hari yang sama dengan pendekatan yang sama, menunjukkan bahwa paradigma kontrol TTS sedang secara kolektif berpindah dari "memilih label" ke "mengungkapkan kebutuhan". Bagi pencipta konten bersuara dan sutradara suara, sebelumnya mengatur emosi memerlukan rekaman berulang-ulang, kini cukup dengan satu kalimat untuk mendefinisikan nuansa halus nada suara. (Sumber: BlockBeats)