Notícia da ME, 18 de abril (UTC+8), segundo monitoramento da Beating, a xAI lançou dois APIs de áudio independentes: Grok Speech to Text e Grok Text to Speech. Ambos derivam da mesma pilha de áudio que suporta o Grok Voice, o sistema embarcado da Tesla e o atendimento ao cliente do Starlink, e agora estão disponíveis como endpoints independentes, permitindo que desenvolvedores integrem diretamente aplicações como agentes de voz, transcrição em tempo real, ferramentas de acessibilidade e podcasts. O STT oferece dois modos: a API REST para transcrição em lote de arquivos de áudio grandes, com retorno em milissegundos; e a API WebSocket para fluxos de voz em tempo real. Recursos adicionais incluem carimbos de tempo em nível de palavra, separação de falantes (diarização), reconhecimento separado por canais múltiplos e Inverse Text Normalization, que converte automaticamente números, datas e moedas do discurso oral em texto estruturado padronizado. Cobertura linguística superior a 25 idiomas, com troca seamless durante conversas. A xAI também divulgou um conjunto de comparações de Taxa de Erro de Palavras (WER, quanto menor melhor): em cenários gerais, Grok apresenta 6,9%, ElevenLabs 9,0%, Deepgram 11,0% e AssemblyAI 12,9%; na identificação de entidades em chamadas telefônicas, a diferença é ainda maior: Grok 5,0%, contra 12,0%, 13,5% e 21,3% das outras três respectivamente. Em três cenários comerciais comuns — reuniões, podcasts de vídeo e chamadas telefônicas — o Grok também lidera levemente. Esses números foram divulgados pela própria xAI e ainda não foram verificados por terceiros. Em termos de precificação, o STT em lote custa US$ 0,10 por hora e em fluxo US$ 0,20 por hora; o TTS custa US$ 4,20 por 1 milhão de caracteres. O TTS suporta o uso de Speech Tags embutidos para controlar emoção e entonação, como `[laugh]`, `[sigh]`, `[whisper]`, ` (fonte: BlockBeats)
xAI lança APIs Grok STT e TTS com taxa de erro de palavra de 6,9%
KuCoinFlashCompartilhar






A xAI lançou as APIs Grok STT e TTS em 18 de abril (UTC+8), com uma taxa de erro de palavras de 6,9%, melhor que ElevenLabs, Deepgram e AssemblyAI. As APIs suportam transcrição em lote e em tempo real por meio de REST e WebSocket. A TTS inclui controles emocionais e rítmicos. O preço da STT é de US$ 0,10/hora para lote e US$ 0,20/hora para streaming, enquanto a TTS custa US$ 4,20 por 1 milhão de caracteres. O lançamento ocorre em meio a notícias sobre aumento das taxas de juros e crescente atividade de notícias on-chain.
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.