Noticias de ME, el 18 de abril (UTC+8), según el monitoreo de Beating, xAI ha lanzado dos API de audio independientes: Grok Speech to Text y Grok Text to Speech. Ambas provienen de la misma pila de audio que respalda Grok Voice, el sistema de vehículos de Tesla y el servicio al cliente de Starlink, y ahora se ofrecen como endpoints independientes, permitiendo a los desarrolladores integrarlas directamente en aplicaciones como agentes de voz, transcripciones en tiempo real, herramientas de accesibilidad y podcasts. STT ofrece dos modos: la API REST para transcripción por lotes de archivos de audio grandes con retorno en milisegundos; y la API WebSocket para flujos de voz en tiempo real. Las funciones adicionales incluyen marcas de tiempo a nivel de palabra, separación de hablantes (diarización), reconocimiento independiente por canal múltiple e Inverse Text Normalization, que convierte automáticamente números, fechas y monedas del lenguaje hablado en texto estructurado estandarizado. Cubre más de 25 idiomas y permite cambiar entre ellos sin interrupciones durante la conversación. xAI también publicó un conjunto de comparaciones de tasa de error de palabras (WER, cuanto menor mejor): en escenarios generales, Grok obtuvo un 6.9%, ElevenLabs un 9.0%, Deepgram un 11.0% y AssemblyAI un 12.9%; en la identificación de entidades en llamadas telefónicas, la brecha se amplió aún más: Grok logró un 5.0%, frente al 12.0%, 13.5% y 21.3% de las tres empresas respectivamente. Grok también lideró ligeramente en tres escenarios comerciales comunes: reuniones, podcasts de video y llamadas telefónicas. Estos datos fueron publicados por xAI mediante pruebas propias y aún no han sido verificados por terceros. En cuanto a precios, STT por lotes cuesta 0.10 dólares por hora y en flujo 0.20 dólares por hora; TTS cuesta 4.20 dólares por 1 millón de caracteres. TTS admite el control de emoción y entonación mediante etiquetas de voz incrustadas, como `[laugh]`, `[sigh]`, `[whisper]`, ` (fuente: BlockBeats)
xAI lanza las API de Grok STT y TTS con una tasa de error de palabras del 6,9%
KuCoinFlashCompartir






xAI lanzó las API de Grok STT y TTS el 18 de abril (UTC+8), con una tasa de error de palabras del 6,9%, mejor que ElevenLabs, Deepgram y AssemblyAI. Las API admiten transcripción por lotes y en tiempo real mediante REST y WebSocket. TTS incluye controles emocionales y rítmicos. El precio de STT es de $0,10/hora para lotes y $0,20/hora para transmisión, mientras que TTS cuesta $4,20 por cada 1 millón de caracteres. El lanzamiento ocurre en medio de noticias sobre el aumento de las tasas de interés y una creciente actividad de noticias en cadena.
Fuente:Mostrar original
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.