Согласно новости ME, 18 апреля (UTC+8), по данным мониторинга Beating, xAI запустила два независимых аудио API: Grok Speech to Text и Grok Text to Speech. Оба основаны на той же аудио-стеке, что поддерживает Grok Voice, систему Tesla в автомобиле и службу поддержки Starlink, и теперь доступны как отдельные endpoint, позволяя разработчикам напрямую интегрировать их в приложения, такие как голосовые агенты, реальное время транскрипции, инструменты для доступности и подкасты. STT предлагает два режима: REST API для пакетной транскрипции больших аудиофайлов с ответом за миллисекунды; WebSocket API предназначен для потоковой передачи речи в реальном времени. Дополнительные возможности включают временные метки на уровне слов, разделение говорящих (диаризация), отдельное распознавание многоканальных сигналов и Inverse Text Normalization — автоматическое преобразование цифр, дат и валют из разговорной речи в структурированный текст. Поддерживается более 25 языков с возможностью бесшовного переключения в ходе диалога. xAI также опубликовала сравнение показателей ошибок распознавания слов (WER, чем ниже значение, тем лучше): в общих сценариях Grok — 6,9%, ElevenLabs — 9,0%, Deepgram — 11,0%, AssemblyAI — 12,9%; в сценарии «распознавание сущностей в телефонных разговорах» разрыв еще больше: Grok — 5,0%, у трех конкурентов — 12,0%, 13,5% и 21,3% соответственно. Grok также незначительно опережает конкурентов в трех типичных бизнес-сценариях: конференции, видео-подкасты и телефонные звонки. Эти цифры были опубликованы xAI на основе собственных тестов; независимая верификация пока отсутствует. В ценовом плане STT пакетная обработка — 0,10 доллара США за час, потоковая — 0,20 доллара США за час; TTS — 4,20 доллара США за 1 миллион символов. TTS поддерживает управление эмоциями и ритмом с помощью встроенных тегов речи, например: `[laugh]`, `[sigh]`, `[whisper]`, ` (источник: BlockBeats)
xAI запускает API Grok STT и TTS с показателем ошибок на слово 6,9%
KuCoinFlashПоделиться






xAI выпустила API Grok STT и TTS 18 апреля (UTC+8) с показателем ошибок на слово 6,9%, что лучше, чем у ElevenLabs, Deepgram и AssemblyAI. API поддерживают пакетную и реальную транскрипцию через REST и WebSocket. TTS включает управление эмоциями и ритмом. Цены на STT: 0,10 доллара в час для пакетной обработки и 0,20 доллара в час для потоковой передачи, а TTS стоит 4,20 доллара за 1 миллион символов. Запуск произошел на фоне роста интереса к новостям об процентных ставках и увеличения активности новостей в блокчейне.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.