Berita ME, 16 April (UTC+8), menurut pemantauan Beating, Jiepao Xingchen secara rasmi melancarkan StepAudio 2.5 TTS. Berbeza dengan TTS tradisional yang memerlukan label emosi pra-tetap, generasi ini menyokong pengawasan setiap butir suara melalui pernyataan bahasa semula jadi: label hanya boleh menyatakan "sedih", manakala bahasa semula jadi boleh menerangkan lebih lanjut seperti "kesedihan yang terkawal, tanpa suara menangis, hanya bergetar perlahan", dan AI akan menghasilkan warna suara yang sepadan berdasarkan ini. Pengawasan dibahagikan kepada tiga peringkat. Pengawasan konteks global menetapkan nada emosi dan suasana keseluruhan ucapan, memastikan konsistensi ekspresi watak dalam perbualan berperingkat; pengawasan konteks teks mengatur nada, irama, jeda, tekanan, dan rasa pernafasan pada peringkat ayat, bahkan boleh menggambarkan aktiviti psikologi watak dan makna tersembunyi; peniruan warna suara tanpa sampel (Zeroshot TTS) tidak memerlukan latihan semula—sebarang rakaman rujukan boleh meniru warna suara, dengan emosi dan gaya yang boleh disesuaikan secara berasingan. Ketiga-tiga fungsi ini telah dilancarkan sepenuhnya di platform terbuka Jiepao Xingchen dan Step Plan. Pada hari yang sama, Google juga melancarkan Gemini 3.1 Flash TTS, yang sama-sama menggunakan arahan bahasa semula jadi untuk menggantikan label SSML guna pengawasan halus, dan mendapat tempat pertama dalam penilaian pihak ketiga. Kedua-dua syarikat melancarkan versi mereka pada hari yang sama dengan pendekatan yang sama, menunjukkan bahawa paradigma pengawasan TTS sedang berubah secara kolektif dari "memilih label" kepada "mengatakan keperluan". Bagi pencipta kandungan bersuara dan pengarah suara, dahulu mengatur emosi memerlukan rakaman berulang-ulang, kini hanya perlu menerangkan dengan satu ayat untuk mentakrifkan perincian halus warna suara. (Sumber: BlockBeats)
StepAudio 2.5 TTS Dilancarkan dengan Kawalan Emosi yang Halus
KuCoinFlashKongsi






StepAudio 2.5 TTS dilancarkan pada 16 April (UTC+8), menawarkan kawalan emosi yang halus melalui bahasa semula jadi. Pengguna kini boleh menentukan nada seperti "kesedihan yang terkawal, tiada nada menangis, getaran sedikit." Sistem ini menyokong konteks global, kawalan dalam teks, dan kloning suara zero-shot. Berita di rantai ini menonjolkan kemajuan ini dalam teknologi audio AI. Sementara itu, Google melancarkan Gemini 3.1 Flash TTS, yang juga menggunakan bahasa semula jadi untuk modulasi ucapan yang tepat. Perbincangan dasar kripto global mungkin segera memasukkan alat-alat seperti ini sebagai sebahagian daripada kerangka peraturan yang lebih luas.
Sumber:Tunjukkan artikel asal
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini.
Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.