xAI запускає API Grok STT і TTS з показником помилок на слово 6,9%

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
xAI випустила API Grok STT і TTS 18 квітня (UTC+8) з показником помилок на слово 6,9%, що краще, ніж у ElevenLabs, Deepgram і AssemblyAI. API підтримують пакетну та реальний час транскрипцію через REST і WebSocket. TTS включає керування емоціями та ритмом. Ціни на STT: $0,10 за годину для пакетної транскрипції та $0,20 за годину для потокової, а TTS коштує $4,20 за 1 мільйон символів. Запуск відбувся на тлі зростання інтересу до новин про процентні ставки та збільшення активності новин у ланцюгу.

ME News: 18 квітня (UTC+8), за даними Beating, xAI запустила два незалежні аудіо API: Grok Speech to Text і Grok Text to Speech. Обидва походять з тієї ж аудіо стеки, що підтримує Grok Voice, системи Tesla в автомобілях та службу підтримки Starlink, і тепер доступні як окремі endpoint, дозволяючи розробникам безпосередньо інтегрувати їх у додатки, такі як голосові агенти, реальний час транскрибування, інструменти доступності та подкасти. STT пропонує два режими: REST API для пакетного транскрибування великих аудіофайлів з відповіддю за мілісекунди; WebSocket API призначений для потокового аудіо. Додаткові функції включають часові мітки на рівні слів, розділення мовців (diarization), окреме визначення для багатоканальних записів та Inverse Text Normalization — автоматичне перетворення розмовних чисел, дат та валют у структурований текст. Підтримується більше 25 мов, з можливістю плавного переключення під час діалогу. xAI також оприлюднила порівняння показників WER (Rate of Word Errors — чим нижче значення, тим краще): загальна сценарна ситуація — Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; у сценарії «розпізнавання сутностей у телефонних розмовах» розрив ще більший: Grok 5,0%, у відповідних трьох компаній — 12,0%, 13,5%, 21,3%. Grok також трохи перевершує конкурентів у трьох поширених сценаріях: конференції, відеоподкасти та телефонні розмови. Ці цифри були оприлюднені xAI самостійно; незалежна перевірка ще не проводилася. Ціни: STT пакетне оброблення — 0,10 долара за годину, потокове — 0,20 долара за годину; TTS — 4,20 долара за 1 мільйон символів. TTS підтримує керування емоціями та ритмом за допомогою вбудованих Speech Tags, наприклад: `[laugh]`, `[sigh]`, `[whisper]`, ` (джерело: BlockBeats)`

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.