StepFun'nin StepAudio 2.5, Nisan 2026'da gerçek zamanlı ses AI testlerinde birinci oldu!

iconCryptoBriefing
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
StepFun’ın 24 Mayıs 2026 civarında lanzman edilen StepAudio 2.5 Realtime, Nisan 2026’da GPT Realtime 1.5 ve Gemini Live’ı geçerek sesli AI performans endekslerinde birinci oldu. İnsan değerlendirmesinde 80,41, genel diyalogda 86,36 ve otomotiv senaryolarında 84,80 puan aldı. Model, konuşmalı SSS’de 79,80 ve paralingüistik anlama konusunda 82,18 puan elde etti. StepAudio 2.5 Realtime, tek bir ses-giriş, ses-çıkış tasarımı kullanıyor ve WebSocket API aracılığıyla Çince ve İngilizceyi destekliyor. Kripto piyasası gelişirken, bu tür AI ilerlemeleri korku ve açgözlülük endeksini etkileyebilir.

Shanghay merkezli bir AI laboratuvarı, teknolojinin en büyük isimlerini sessizce utandırdı. StepFun’ın 24 Mayıs civarında piyasaya sürülen StepAudio 2.5 Realtime, Nisan 2026 testleri kapsamında tüm beş ana ses AI performans testini geçti ve GPT Realtime 1.5 ile Gemini Live’ı geride bıraktı.

Model, sadece ne söylediğinizi anlamaz; tonu, duyguyu ve konuşma hızını da yorumlar, bu da çoğu rekabetçi ses asistanını monotone bir metni okur gibi hissettirir.

Gürültünün ardındaki sayılar

StepAudio 2.5 Gerçek Zamanlı, test edilen tüm performans kategorilerinde en yüksek puanları aldı. İnsan değerlendirmesinde 80,41 puan aldı. Genel diyalog performansı 86,36'ya ulaştı. Otomotiv senaryo testi, modelin sürüş bağlamında ses etkileşimlerini nasıl işlediğini ölçer ve 84,80 puan aldı.

11 ayrı görevi kapsayan konuşma tabanlı soru-cevap performans testi 79,80 puan aldı. En ilginç metrik olarak kabul edilebilecek paralingüistik anlama puanı ise 82,18'e ulaştı.

Reklam

Bağlamda, modelin öncüsü StepAudio 2, MMAU benchmark skoru 77,4% ile dikkatleri üzerine çekmişti. 2.5 Realtime'e geçiş, pazarlama diliyle süslenmiş küçük bir sürüm yükseltmesinden ziyade anlamlı bir atlamadır.

Nasıl çalıştığını öğrenin

Mimari, bunu diğerlerinden ayıran unsurdur. StepAudio 2.5 Realtime, otomatik konuşma tanıma (ASR), metinden konuşmaya (TTS) ve gerçek zamanlı diyalog işleme gibi üç temel özelliği tek bir çerçevede birleştiren tek bir ses-giriş, ses-çıkış tasarımı kullanır.

Şöyle düşünün: çoğu sesli AI sistemi aşamalı çalışır. Konuşmanızı metne dönüştürür, metni işler, metin olarak bir yanıt oluşturur ve ardından bunu tekrar seslendirir. Her elden elgeçişte gecikme oluşur ve nüanslar kaybolur. StepFun’un yaklaşımı bu adımları tek bir bütüncül sisteme birleştirir.

Gizli sosu, StepFun'un kişiliköze özel İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF) olarak adlandırdığı şeydir. Standart RLHF, bir modeli insan tercihlerine göre daha iyi yanıtlar vermeye eğitir. StepFun’un versiyonu, bu geri bildirim döngüsünü belirli kişiliklere uyarlayarak daha ileri gider; bu da modelin uzun süreli rol oynama veya müşteri hizmeti senaryolarında tutarlı karakter özellikleri korumasını sağlar.

Model şu anda Çince ve İngilizceyi destekliyor, ‘step-2.5-realtime’ model dizesi üzerinden WebSocket API ile bağlantı kuruyor ve StepFun’un platform API’si ile özel bir gerçek zamanlı konsol aracılığıyla erişilebiliyor. Mimariyi detaylı açıklayan bir teknik rapor, arXiv’de 2605.23463 kimliği altında yayınlandı.

Neden paralingüistik anlama önemlidir

StepAudio 2.5’in paralingüistik anlama konusundaki 82,18 puanı, StepFun’un bu konuda gerçek ilerleme kaydettiğini gösteriyor. Arayanın tonunda hayal kırıklığını algılayıp bir insan temsilcisine yönlendirebilen ya da kafa karışıklığını fark ettiğinde konuşmasını yavaşlatabilen bir ses asistanı, sadece kelimeleri doğru şekilde işleyen bir üründen temel olarak farklı bir ürün temsil eder.

84,80 otomotiv senaryosu performans puanı, başka bir kârlı uygulama işaret etmektedir. Araç içi ses asistanları gürültülü ortamlarla başa çıkmalı, komutları hızlıca yorumlamalı ve ideal olarak sürücünün stresli mi yoksa rahat mı olduğunu anlayabilmelidir.

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.