Berita ME, 16 April (UTC+8), menurut pemantauan Beating, Step星辰 secara resmi meluncurkan StepAudio 2.5 TTS. Berbeda dengan TTS tradisional yang memerlukan label emosi pra-atur, generasi ini mendukung pengendalian setiap detail suara melalui deskripsi bahasa alami: label hanya dapat menyatakan "sedih", sedangkan bahasa alami dapat menjelaskan lebih lanjut "kesedihan yang terkendali, tanpa suara menangis, hanya bergetar halus", dan AI menghasilkan nada suara yang sesuai. Kontrol dibagi menjadi tiga lapisan. Konteks global menetapkan nada emosional dan suasana keseluruhan ucapan, memastikan konsistensi ekspresi karakter dalam percakapan berulang; konteks teks mengatur nada, irama, jeda, penekanan, dan sensasi napas pada tingkat kalimat, bahkan dapat menggambarkan aktivitas psikologis dan subteks karakter; rekaman nada suara nol-sample (Zeroshot TTS) tidak memerlukan pelatihan ulang—rekaman referensi apa pun dapat meniru nada suara, dengan emosi dan gaya yang dapat disesuaikan secara independen. Ketiga fitur ini telah dirilis penuh di platform terbuka Step星辰 dan Step Plan. Pada hari yang sama, Google juga meluncurkan Gemini 3.1 Flash TTS, yang juga menggunakan perintah bahasa alami untuk menggantikan label SSML guna mencapai kontrol halus, dan menduduki peringkat teratas dalam evaluasi pihak ketiga. Kedua perusahaan merilis versi mereka pada hari yang sama dengan pendekatan yang sama, menunjukkan bahwa paradigma kontrol TTS sedang secara kolektif berpindah dari "memilih label" ke "mengungkapkan kebutuhan". Bagi pencipta konten bersuara dan sutradara suara, sebelumnya mengatur emosi memerlukan rekaman berulang-ulang, kini cukup dengan satu kalimat untuk mendefinisikan nuansa halus nada suara. (Sumber: BlockBeats)
StepAudio 2.5 TTS Diluncurkan dengan Kontrol Emosi yang Halus
KuCoinFlashBagikan






StepAudio 2.5 TTS diluncurkan pada 16 April (UTC+8), menawarkan kontrol emosi yang detail melalui bahasa alami. Pengguna sekarang dapat menentukan nada seperti "kesedihan terkendali, tanpa nada menangis, getaran ringan." Sistem ini mendukung konteks global, kontrol dalam teks, dan cloning suara zero-shot. Berita on-chain menyoroti kemajuan ini dalam teknologi audio AI. Sementara itu, Google merilis Gemini 3.1 Flash TTS, yang juga menggunakan bahasa alami untuk modulasi ucapan yang presisi. Diskusi kebijakan kripto global mungkin segera memasukkan alat-alat semacam ini sebagai bagian dari kerangka regulasi yang lebih luas.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.