Selon les nouvelles de ME, le 18 avril (UTC+8), selon les données de Beating, xAI a lancé deux API audio indépendantes : Grok Speech to Text et Grok Text to Speech. Ces deux services proviennent de la même pile audio sous-jacente à Grok Voice, au système embarqué Tesla et au service client Starlink, et sont désormais accessibles sous forme d'endpoints indépendants, permettant aux développeurs de les intégrer directement dans des applications telles que des agents vocaux, des transcriptions en temps réel, des outils d'accessibilité et des podcasts. STT propose deux modes : une API REST pour la transcription par lots de gros fichiers audio avec des temps de réponse en millisecondes ; et une API WebSocket dédiée aux flux vocaux en temps réel. Les fonctionnalités annexes incluent des horodatages au niveau des mots, la séparation des locuteurs (diarisation), la reconnaissance distincte sur plusieurs canaux, ainsi que l'Inverse Text Normalization, qui convertit automatiquement les chiffres, dates et devises du langage oral en texte structuré normalisé. La prise en charge couvre plus de 25 langues, avec un basculement fluide entre elles pendant la conversation. xAI a également publié un ensemble de comparaisons de taux d'erreur sur les mots (WER, où les valeurs plus basses sont meilleures) : dans des scénarios généraux, Grok affiche 6,9 % contre 9,0 % pour ElevenLabs, 11,0 % pour Deepgram et 12,9 % pour AssemblyAI ; dans le cas spécifique de la reconnaissance d'entités dans les appels téléphoniques, l'écart est encore plus marqué : Grok à 5,0 % contre respectivement 12,0 %, 13,5 % et 21,3 % pour les trois autres. Grok affiche également une légère avance dans trois scénarios commerciaux courants : réunions, podcasts vidéo et appels téléphoniques. Ces chiffres ont été publiés par xAI lui-même et n'ont pas encore été vérifiés par un tiers. En termes de tarification, STT en traitement par lots coûte 0,10 $/heure et en flux 0,20 $/heure ; TTS est facturé 4,20 $/1 million de caractères. TTS prend en charge le contrôle de l'affect et de la prosodie via des balises vocales intégrées, telles que `[laugh]`, `[sigh]`, `[whisper]`, ` (source : BlockBeats)
xAI lance les API Grok STT et TTS avec un taux d'erreur de mots de 6,9 %
KuCoinFlashPartager






xAI a lancé les API Grok STT et TTS le 18 avril (UTC+8), avec un taux d'erreur de mots de 6,9 %, meilleur que ElevenLabs, Deepgram et AssemblyAI. Les API prennent en charge la transcription par lots et en temps réel via REST et WebSocket. TTS inclut des contrôles émotionnels et rythmiques. Le prix de STT est de 0,10 $/heure pour les lots et de 0,20 $/heure pour le streaming, tandis que TTS coûte 4,20 $ pour 1 million de caractères. Ce lancement intervient au moment où les nouvelles sur les taux d'intérêt et l'activité des nouvelles sur chaîne augmentent.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.