Sierra открывает исходный код μ-Bench для оценки многоязычных систем ASR

Согласно новости ME, 21 апреля (UTC+8), по данным мониторинга Beating, компания Sierra, специализирующаяся на AI-сервисах поддержки клиентов, открыла многоязыковой набор данных для оценки автоматического распознавания речи (ASR) — μ-Bench. Данные собраны из 250 реальных аудиозаписей телефонных звонков в службу поддержки и 4270人工 аннотированных аудиофайлов с частотой дискретизации 8 кГц и моно-каналом. Ранее доступные наборы данных для оценки ASR либо охватывали только английский язык, либо использовали записи с чтением текста в студии, что делало их практически неприменимыми для команд, планирующих интегрировать голосовых агентов в многоязычные сценарии поддержки клиентов. μ-Bench напрямую заполняет этот пробел, используя реальные телефонные разговоры. Сегодня публикуется подмножество полного внутреннего набора оценок Sierra. Внутренний набор охватывает 42 языка, 79 региональных вариантов и более 13 поставщиков; в открытую версию вошли пять языковых регионов — английский, испанский, турецкий, вьетнамский и китайский — а также результаты пяти поставщиков: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 и OpenAI GPT-4o Mini Transcribe. Код, набор данных (размещённый на Hugging Face) и открытый рейтинг опубликованы совместно — приглашаем других поставщиков представить свои результаты. Настоящая новизна оценки заключается в метриках. Sierra представила новый показатель UER (Utterance Error Rate — уровень ошибок на уровне высказывания), который разделяет ошибки, меняющие смысл, от незначительных. Традиционный WER (Word Error Rate — уровень ошибок на уровне слов) считает одинаково пропущенное «э-э» и неверно распознанный номер телефона, но для голосового агента, выполняющего действия на основе транскрипции, именно вторая ошибка может привести к сбою процесса. Sierra отмечает, что у двух поставщиков с близким WER UER может значительно отличаться — потому что типы допускаемых ими ошибок различаются. По результатам: Google Chirp-3 демонстрирует наивысшую точность, но более медленное время обработки; Deepgram Nova-3 имеет p50 задержку почти в 8 раз быстрее, но показывает худшую многоязычную точность. Ошибка распознавания китайского языка может достигать пятикратного уровня английского, а различия в результатах для вьетнамского языка между поставщиками также значительны — эти различия невозможно увидеть, анализируя только английские базовые показатели. (Источник: BlockBeats)