Berita ME, 18 April (UTC+8), menurut pemantauan Beating, xAI meluncurkan dua API audio independen: Grok Speech to Text dan Grok Text to Speech. Keduanya berasal dari stack audio yang sama yang mendukung Grok Voice, sistem kendaraan Tesla, dan layanan pelanggan Starlink, dan kini dibuka sebagai endpoint independen, memungkinkan pengembang mengintegrasikannya langsung ke aplikasi seperti agen suara, transkripsi real-time, alat aksesibilitas, dan podcast. STT menyediakan dua mode: REST API untuk transkripsi batch file audio besar dengan waktu respons milidetik; WebSocket API dirancang untuk aliran suara real-time. Fitur tambahan mencakup time戳 tingkat kata, pemisahan pembicara (diarization), pengenalan saluran ganda, serta Inverse Text Normalization, yang secara otomatis mengonversi angka, tanggal, dan mata uang dalam percakapan lisan menjadi teks terstruktur yang baku. Mendukung lebih dari 25 bahasa dan dapat beralih secara mulus dalam percakapan. xAI juga mengumumkan sejumlah perbandingan Word Error Rate (WER, semakin rendah semakin baik): secara keseluruhan, Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; pada "pengenalan entitas panggilan telepon", selisihnya lebih besar: Grok 5,0%, sedangkan ketiga pesaing tersebut masing-masing 12,0%, 13,5%, dan 21,3%. Grok juga sedikit unggul dalam tiga skenario bisnis umum: rapat, podcast video, dan panggilan telepon. Angka-angka ini dirilis oleh xAI sendiri dan belum diverifikasi oleh pihak ketiga. Harga: STT batch seharga 0,10 dolar per jam, streaming 0,20 dolar per jam; TTS seharga 4,20 dolar per 1 juta karakter. TTS mendukung pengendalian emosi dan ritme menggunakan Speech Tags inline, misalnya `[laugh]`, `[sigh]`, `[whisper]`, ` (sumber: BlockBeats)
xAI Meluncurkan API Grok STT dan TTS dengan Tingkat Kesalahan Kata 6,9%
KuCoinFlashBagikan






xAI merilis API Grok STT dan TTS pada 18 April (UTC+8), dengan tingkat kesalahan kata sebesar 6,9%, lebih baik daripada ElevenLabs, Deepgram, dan AssemblyAI. API tersebut mendukung transkripsi batch dan real-time melalui REST dan WebSocket. TTS mencakup kontrol emosional dan ritmis. Harga STT adalah $0,10/jam untuk batch dan $0,20/jam untuk streaming, sedangkan TTS seharga $4,20 per 1 juta karakter. Peluncuran ini terjadi di tengah berita suku bunga yang meningkat dan aktivitas berita on-chain yang terus bertumbuh.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.