StepAudio 2.5 TTS Dilancarkan dengan Kawalan Emosi yang Halus

Berita ME, 16 April (UTC+8), menurut pemantauan Beating, Jiepao Xingchen secara rasmi melancarkan StepAudio 2.5 TTS. Berbeza dengan TTS tradisional yang memerlukan label emosi pra-tetap, generasi ini menyokong pengawasan setiap butir suara melalui pernyataan bahasa semula jadi: label hanya boleh menyatakan "sedih", manakala bahasa semula jadi boleh menerangkan lebih lanjut seperti "kesedihan yang terkawal, tanpa suara menangis, hanya bergetar perlahan", dan AI akan menghasilkan warna suara yang sepadan berdasarkan ini. Pengawasan dibahagikan kepada tiga peringkat. Pengawasan konteks global menetapkan nada emosi dan suasana keseluruhan ucapan, memastikan konsistensi ekspresi watak dalam perbualan berperingkat; pengawasan konteks teks mengatur nada, irama, jeda, tekanan, dan rasa pernafasan pada peringkat ayat, bahkan boleh menggambarkan aktiviti psikologi watak dan makna tersembunyi; peniruan warna suara tanpa sampel (Zeroshot TTS) tidak memerlukan latihan semula—sebarang rakaman rujukan boleh meniru warna suara, dengan emosi dan gaya yang boleh disesuaikan secara berasingan. Ketiga-tiga fungsi ini telah dilancarkan sepenuhnya di platform terbuka Jiepao Xingchen dan Step Plan. Pada hari yang sama, Google juga melancarkan Gemini 3.1 Flash TTS, yang sama-sama menggunakan arahan bahasa semula jadi untuk menggantikan label SSML guna pengawasan halus, dan mendapat tempat pertama dalam penilaian pihak ketiga. Kedua-dua syarikat melancarkan versi mereka pada hari yang sama dengan pendekatan yang sama, menunjukkan bahawa paradigma pengawasan TTS sedang berubah secara kolektif dari "memilih label" kepada "mengatakan keperluan". Bagi pencipta kandungan bersuara dan pengarah suara, dahulu mengatur emosi memerlukan rakaman berulang-ulang, kini hanya perlu menerangkan dengan satu ayat untuk mentakrifkan perincian halus warna suara. (Sumber: BlockBeats)