Sierra открывает исходный код μ-Bench для оценки многоязычных систем ASR

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Sierra, компания по обслуживанию клиентов на базе ИИ, открыла исходный код μ-Bench — многоязычный стандарт для автоматического распознавания речи, включающий 250 реальных аудиозаписей звонков и 4 270 аннотированных образцов. Набор данных использует аудио с частотой 8 кГц и вводит метрику UER для отслеживания значимых ошибок. Результаты показывают, что уровень ошибок на китайском языке в пять раз выше, чем на английском. Выпуск совпал с растущим интересом к новым листингам токенов и реакцией рынков на данные по инфляции.

Согласно новости ME, 21 апреля (UTC+8), по данным мониторинга Beating, компания Sierra, специализирующаяся на AI-сервисах поддержки клиентов, открыла многоязыковой набор данных для оценки автоматического распознавания речи (ASR) — μ-Bench. Данные собраны из 250 реальных аудиозаписей телефонных звонков в службу поддержки и 4270人工 аннотированных аудиофайлов с частотой дискретизации 8 кГц и моно-каналом. Ранее доступные наборы данных для оценки ASR либо охватывали только английский язык, либо использовали записи с чтением текста в студии, что делало их практически неприменимыми для команд, планирующих интегрировать голосовых агентов в многоязычные сценарии поддержки клиентов. μ-Bench напрямую заполняет этот пробел, используя реальные телефонные разговоры. Сегодня публикуется подмножество полного внутреннего набора оценок Sierra. Внутренний набор охватывает 42 языка, 79 региональных вариантов и более 13 поставщиков; в открытую версию вошли пять языковых регионов — английский, испанский, турецкий, вьетнамский и китайский — а также результаты пяти поставщиков: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 и OpenAI GPT-4o Mini Transcribe. Код, набор данных (размещённый на Hugging Face) и открытый рейтинг опубликованы совместно — приглашаем других поставщиков представить свои результаты. Настоящая новизна оценки заключается в метриках. Sierra представила новый показатель UER (Utterance Error Rate — уровень ошибок на уровне высказывания), который разделяет ошибки, меняющие смысл, от незначительных. Традиционный WER (Word Error Rate — уровень ошибок на уровне слов) считает одинаково пропущенное «э-э» и неверно распознанный номер телефона, но для голосового агента, выполняющего действия на основе транскрипции, именно вторая ошибка может привести к сбою процесса. Sierra отмечает, что у двух поставщиков с близким WER UER может значительно отличаться — потому что типы допускаемых ими ошибок различаются. По результатам: Google Chirp-3 демонстрирует наивысшую точность, но более медленное время обработки; Deepgram Nova-3 имеет p50 задержку почти в 8 раз быстрее, но показывает худшую многоязычную точность. Ошибка распознавания китайского языка может достигать пятикратного уровня английского, а различия в результатах для вьетнамского языка между поставщиками также значительны — эти различия невозможно увидеть, анализируя только английские базовые показатели. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.