xAI Melancarkan API Grok STT dan TTS dengan Kadar Kesalahan Kata 6.9%

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
xAI melancarkan API Grok STT dan TTS pada 18 April (UTC+8), dengan kadar kesalahan perkataan 6.9%, lebih baik daripada ElevenLabs, Deepgram, dan AssemblyAI. API ini menyokong transkripsi batch dan masa nyata melalui REST dan WebSocket. TTS termasuk kawalan emosi dan irama. Harga STT ialah $0.10/jam untuk batch dan $0.20/jam untuk streaming, manakala TTS berharga $4.20 per 1 juta aksara. Pelancaran ini berlaku semasa berita kadar faedah yang semakin meningkat dan aktiviti berita di rantai yang semakin bertambah.

Berita ME, 18 April (UTC+8), menurut pemantauan Beating, xAI melancarkan dua API audio berasingan: Grok Speech to Text dan Grok Text to Speech. Kedua-duanya berasal daripada stak audio yang sama yang menyokong Grok Voice, sistem kereta Tesla, dan perkhidmatan pelanggan Starlink, dan kini dibuka sebagai endpoint berasingan, membolehkan pembangun menghubungkan secara langsung kepada aplikasi seperti agen suara, transkripsi masa nyata, alat aksesibiliti, dan podcast. STT menyediakan dua mod. API REST digunakan untuk transkripsi berjumlah fail audio besar dengan respons dalam milisaat; API WebSocket direka untuk aliran suara masa nyata. Kemampuan tambahan termasuk timestamp per kata, pemisahan pembicara (diarization), pengenalan saluran berasingan, serta Inverse Text Normalization, iaitu mengubah nombor, tarikh, dan mata wang dalam ucapan lisan kepada teks terstruktur yang standard. Bahasa yang disokong melebihi 25 jenis, dan boleh berpindah secara lancar semasa perbualan. xAI juga mengumumkan satu set perbandingan Word Error Rate (WER, nilai lebih rendah lebih baik): dalam keseluruhan skenario, Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; dalam "pengenalan entiti panggilan telefon", jurangnya lebih besar, Grok 5.0%, manakala tiga penyedia tersebut masing-masing 12.0%, 13.5%, 21.3%. Grok juga sedikit unggul dalam tiga skenario perniagaan biasa: mesyuarat, podcast video, dan panggilan telefon. Nombor-nombor ini diumumkan oleh xAI sendiri dan belum disahkan semula oleh pihak ketiga. Dari segi harga, STT batch ialah $0.10/jam, streaming ialah $0.20/jam; TTS ialah $4.20/1 juta aksara. TTS menyokong penggunaan Speech Tags secara in-line untuk mengawal emosi dan irama, contohnya `[laugh]`, `[sigh]`, `[whisper]`, ` (sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.