xAI 推出 Grok STT 和 TTS API,詞錯誤率為 6.9%

iconKuCoinFlash
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
xAI 於 4 月 18 日(UTC+8)發布了 Grok STT 和 TTS API,詞錯誤率為 6.9%,優於 ElevenLabs、Deepgram 和 AssemblyAI。這些 API 支援透過 REST 和 WebSocket 進行批次和即時轉錄。TTS 包含情感與節奏控制功能。STT 的定價為批次每小時 $0.10,串流每小時 $0.20;TTS 則為每 1 百萬字元 $4.20。此發布正值利率消息上升及鏈上新聞活動增加之際。

ME News 消息,4 月 18 日(UTC+8),據動察 Beating 監測,xAI 上線兩個獨立音頻 API:Grok Speech to Text 和 Grok Text to Speech。兩者來自支撐 Grok Voice、特斯拉車載系統和 Starlink 客服的同一套音頻棧,此次以獨立 endpoint 形式開放,開發者可直接接入語音代理、實時轉錄、無障礙工具和播客等應用。STT 提供兩種模式。REST API 用於對大音頻文件批量轉錄,毫秒級返回;WebSocket API 面向實時語音流。附帶能力包括詞級時間戳、說話人分離(diarization)、多通道分別識別,以及 Inverse Text Normalization,即把口語裡的數字、日期、貨幣自動整形為規範的結構化文本。語種覆蓋 25 種以上,可在對話中無縫切換。xAI 同時公布一組詞錯率(WER,數值越低越好)對比:整體場景 Grok 6.9%,ElevenLabs 9.0%,Deepgram 11.0%,AssemblyAI 12.9%;「電話通話實體識別」差距被拉得更大,Grok 5.0%,對應三家分別為 12.0%、13.5%、21.3%。會議、視頻播客、電話三類常見業務場景下 Grok 也都小幅領先。這組數字由 xAI 自行測試公布,尚無第三方複測。定價上,STT 批處理 0.10 美元/小時、流式 0.20 美元/小時;TTS 為 4.20 美元/100 萬字符。TTS 支持用內聯 Speech Tags 控制情感和韻律,例如 `[laugh]`、`[sigh]`、`[whisper]`、`(來源:BlockBeats)

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露