xAI, 6,9% kelime hata oranı ile Grok STT ve TTS API'lerini başlatıyor

iconKuCoinFlash
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
xAI, 18 Nisan'da (UTC+8) Grok STT ve TTS API'lerini yayınladı; kelime hata oranı %6,9 olarak, ElevenLabs, Deepgram ve AssemblyAI'dan daha iyi. API'ler, REST ve WebSocket aracılığıyla toplu ve gerçek zamanlı transkripsiyonu destekliyor. TTS, duygusal ve ritmik kontrolleri içeriyor. STT fiyatı, toplu işlem için saatte 0,10 ABD doları, akış için saatte 0,20 ABD doları; TTS fiyatı ise 1 milyon karakter başına 4,20 ABD doları. Yayın, artan faiz oranları haberleri ve artan zincir içi haber aktivitesiyle aynı dönemde gerçekleşti.

ME Haberleri'ne göre, 18 Nisan (UTC+8) tarihinde, Beating izleme sistemi tarafından tespit edildiğine göre, xAI, Grok Speech to Text ve Grok Text to Speech olmak üzere iki bağımsız ses API'sini piyasaya sürdü. Bu iki API, Grok Voice, Tesla araç sistemleri ve Starlink müşteri hizmetlerini destekleyen aynı ses yığınından geliyor ve şimdi bağımsız endpoint olarak geliştiricilere açılıyor; bu sayede ses asistanları, gerçek zamanlı transkripsiyon, erişilebilirlik araçları ve podcast gibi uygulamalara doğrudan entegrasyon mümkün olacak. STT, iki mod sunuyor: REST API, büyük ses dosyalarını toplu transkripsiyon için milisaniye düzeyinde yanıt veriyor; WebSocket API ise gerçek zamanlı ses akışları için tasarlanmış. Ek özellikler arasında kelime düzeyinde zaman damgaları, konuşmacı ayrımı (diarization), çok kanallı ayrı ayrı tanıma ve Inverse Text Normalization yer alıyor; bu son özellik, günlük konuşma içindeki sayıları, tarihleri ve para birimlerini otomatik olarak düzenli yapılandırılmış metne dönüştürür. 25'ten fazla dil destekleniyor ve diyalog sırasında sorunsuz geçiş yapılabilir. xAI aynı zamanda kelime hata oranları (WER, değer ne kadar düşükse o kadar iyi) karşılaştırmasını açıkladı: genel senaryolarda Grok %6,9, ElevenLabs %9,0, Deepgram %11,0, AssemblyAI %12,9; 'telefon görüşmelerinde varlık tanıma' senaryosunda fark daha da açık: Grok %5,0, ilgili üç hizmet sağlayıcı ise sırasıyla %12,0, %13,5 ve %21,3. Konferanslar, video podcast'ler ve telefon görüşmeleri olmak üzere üç yaygın iş senaryosunda Grok her durumda hafif bir avantaja sahip. Bu veriler xAI tarafından kendi testleriyle açıklanmış olup, henüz üçüncü taraf teyitleri bulunmamaktadır. Fiyatlandırma açısından, STT toplu işleme saat başına 0,10 ABD doları, akışlı işlem saat başına 0,20 ABD doları; TTS ise 1 milyon karakter başına 4,20 ABD dolarıdır. TTS, `[laugh]`, `[sigh]`, `[whisper]` gibi içe gömülmüş Speech Tags kullanarak duyguyu ve ritmi kontrol etmeyi destekler. (Kaynak: BlockBeats)

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.