Balita ni ME, noong Abril 18 (UTC+8), ayon sa pagmamasid ng Beating, inilunsad ng xAI ang dalawang hiwalay na audio API: Grok Speech to Text at Grok Text to Speech. Parehong galing sa parehong audio stack na nagtataguyod ng Grok Voice, Tesla in-car system, at Starlink customer service, at ngayon ay inilabas bilang mga hiwalay na endpoint para sa mga developer na maaaring direktang i-integrate sa mga aplikasyon tulad ng voice agents, real-time transcription, accessibility tools, at podcasts. Ang STT ay nag-aalok ng dalawang mode: ang REST API para sa batch transcription ng malalaking audio file na may pagbabalik sa millisecond level; at ang WebSocket API para sa real-time audio stream. Kasama ang mga karagdagang kakayahan: word-level timestamps, speaker diarization, multi-channel recognition, at Inverse Text Normalization—na nagpapalit ng mga numero, petsa, at pera sa salitang pang-araw-araw sa structured text. Kasama ang suporta sa higit sa 25 wika na maaaring palitan nang walang pagkakainterrupt. Ipinakita rin ng xAI ang isang paghahambing ng Word Error Rate (WER, mas mababa ang mas mabuti): sa pangkalahatang scenario, 6.9% ang Grok, 9.0% ang ElevenLabs, 11.0% ang Deepgram, at 12.9% ang AssemblyAI; sa “phone call entity recognition,” mas malaki ang pagkakaiba: 5.0% ang Grok, habang 12.0%, 13.5%, at 21.3% ang tatlong kumpanya. Sa tatlong karaniwang business scenario—meeting, video podcast, at phone call—mas mataas din ang performance ng Grok. Ang mga numero na ito ay inilabas ng xAI mismo at wala pa ring third-party verification. Sa presyo: 0.10 dolyar/hour para sa batch STT, 0.20 dolyar/hour para sa streaming STT; at 4.20 dolyar/1 milyong karakter para sa TTS. Ang TTS ay sumusuporta sa paggamit ng inline Speech Tags para kontrolin ang emosyon at ritmo, halimbawa: `[laugh]`, `[sigh]`, `[whisper]`, ` (pinagmulan: BlockBeats)
Lumunsad ng xAI ang Grok STT at TTS APIs na may 6.9% na Word Error Rate
KuCoinFlashI-share






I-release ng xAI ang Grok STT at TTS APIs noong April 18 (UTC+8), na may 6.9% na rate ng pagkakamali sa salita, mas mabuti kaysa sa ElevenLabs, Deepgram, at AssemblyAI. Suportahan ng mga API ang batch at real-time transcription gamit ang REST at WebSocket. Ang TTS ay may mga kontrol para sa emosyon at ritmo. Ang presyo ng STT ay $0.10/hour para sa batch at $0.20/hour para sa streaming, habang ang TTS ay $4.20 bawat 1 milyong karakter. Ang paglunsad ay nangyari habang tumataas ang interes sa balita tungkol sa interest rates at lumalago ang aktibidad sa on-chain news.
Source:Ipakita ang original
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito.
Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.