ME Haberleri'ne göre, 16 Nisan (UTC+8) tarihinde Beating tarafından izlendiğine göre, Step星辰 resmen StepAudio 2.5 TTS'i duyurdu. Geleneksel TTS sistemlerinin önceden tanımlanmış duygusal etiketlere ihtiyaç duymasının aksine, bu nesil, sesin her ayrıntısını doğal dil ile tanımlamayı destekliyor: Etiketler yalnızca "üzüntü" ifade edebilirken, doğal dil "kontrollü üzüntü, ağlama sesi olmadan, hafif titreyen" gibi daha detaylı tanımlamalar yapabilir; AI bu bilgileri kullanarak uygun ses tonunu sentezler. Kontrol üç katmanlıdır. Genel bağlam kontrolü, tüm sesin duygusal tonunu ve ortam atmosferini belirler ve çoklu diyaloglarda karakter ifadelerinin tutarlılığını sağlar; metin içi bağlam kontrolü, cümle düzeyinde tonu, ritmi, duraklamaları, vurguları ve nefes almayı ayarlar ve hatta karakterin psikolojik durumunu ve alt metni betimleyebilir; sıfır örnek ses kopyalama (Zeroshot TTS) yeniden eğitme gerektirmeden, herhangi bir referans kaydından ses tonunu taklit edebilir; duygular ve tarzlar bağımsız olarak ayarlanabilir. Üç fonksiyon da Step星辰 açık platformunda ve Step Plan'da tamamen yayına alınmıştır. Aynı gün, Google Gemini 3.1 Flash TTS'i de duyurdu ve aynı şekilde SSML etiketlerinin yerine doğal dil komutları kullanarak ince kontroller sağladı ve üçüncü taraf değerlendirmelerde birinci oldu. İki şirketin aynı günde aynı yaklaşımı benimsemesi, TTS kontrol paradigmalarının toplu olarak "etiket seçmek"ten "ihtiyacı söylemek"e geçtiğini gösteriyor. Sesli içerik üreticileri ve seslendirme yönetmenleri için, önceki zamanlarda duyguları ayarlamak için tekrar tekrar kayıt yapmak gerekiyordu; şimdi bir cümleyle ses tonunun ince katmanlarını tanımlayabilirsiniz. (Kaynak: BlockBeats)
StepAudio 2.5 TTS, İnce Ayarlı Duygusal Kontrol ile Başlıyor
KuCoinFlashPaylaş






StepAudio 2.5 TTS, 16 Nisan'da (UTC+8) başlatıldı ve doğal dil aracılığıyla ince duygusal kontrol sunuyor. Kullanıcılar artık "sınırlandırılmış üzüntü, ağlama tonu yok, hafif titreme" gibi tonları belirleyebiliyor. Sistem, küresel bağlamı, metin içi kontrolü ve sıfır örnekleme ses klonlamayı destekliyor. Zincir üstü haberler, bu gelişmenin AI ses teknolojisindeki ilerlemeyi vurguluyor. Aynı zamanda, Google Gemini 3.1 Flash TTS'yi doğal dil kullanarak hassas konuşma modülasyonu için yayınladı. Küresel kripto politika tartışmaları, bu araçları daha geniş düzenleyici çerçevelerin bir parçası olarak içerebilir.
Kaynak:Orijinalini göster
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir.
Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.