Согласно новости ME, 21 апреля (UTC+8), по данным мониторинга Beating, компания Sierra, специализирующаяся на AI-сервисах поддержки клиентов, открыла многоязыковой набор данных для оценки автоматического распознавания речи (ASR) — μ-Bench. Данные собраны из 250 реальных аудиозаписей телефонных звонков в службу поддержки и 4270人工 аннотированных аудиофайлов с частотой дискретизации 8 кГц и моно-каналом. Ранее доступные наборы данных для оценки ASR либо охватывали только английский язык, либо использовали записи с чтением текста в студии, что делало их практически неприменимыми для команд, планирующих интегрировать голосовых агентов в многоязычные сценарии поддержки клиентов. μ-Bench напрямую заполняет этот пробел, используя реальные телефонные разговоры. Сегодня публикуется подмножество полного внутреннего набора оценок Sierra. Внутренний набор охватывает 42 языка, 79 региональных вариантов и более 13 поставщиков; в открытую версию вошли пять языковых регионов — английский, испанский, турецкий, вьетнамский и китайский — а также результаты пяти поставщиков: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 и OpenAI GPT-4o Mini Transcribe. Код, набор данных (размещённый на Hugging Face) и открытый рейтинг опубликованы совместно — приглашаем других поставщиков представить свои результаты. Настоящая новизна оценки заключается в метриках. Sierra представила новый показатель UER (Utterance Error Rate — уровень ошибок на уровне высказывания), который разделяет ошибки, меняющие смысл, от незначительных. Традиционный WER (Word Error Rate — уровень ошибок на уровне слов) считает одинаково пропущенное «э-э» и неверно распознанный номер телефона, но для голосового агента, выполняющего действия на основе транскрипции, именно вторая ошибка может привести к сбою процесса. Sierra отмечает, что у двух поставщиков с близким WER UER может значительно отличаться — потому что типы допускаемых ими ошибок различаются. По результатам: Google Chirp-3 демонстрирует наивысшую точность, но более медленное время обработки; Deepgram Nova-3 имеет p50 задержку почти в 8 раз быстрее, но показывает худшую многоязычную точность. Ошибка распознавания китайского языка может достигать пятикратного уровня английского, а различия в результатах для вьетнамского языка между поставщиками также значительны — эти различия невозможно увидеть, анализируя только английские базовые показатели. (Источник: BlockBeats)
Sierra открывает исходный код μ-Bench для оценки многоязычных систем ASR
KuCoinFlashПоделиться






Sierra, компания по обслуживанию клиентов на базе ИИ, открыла исходный код μ-Bench — многоязычный стандарт для автоматического распознавания речи, включающий 250 реальных аудиозаписей звонков и 4 270 аннотированных образцов. Набор данных использует аудио с частотой 8 кГц и вводит метрику UER для отслеживания значимых ошибок. Результаты показывают, что уровень ошибок на китайском языке в пять раз выше, чем на английском. Выпуск совпал с растущим интересом к новым листингам токенов и реакцией рынков на данные по инфляции.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.