Sierra відкриває джерела μ-Bench для оцінки багатомовних систем ASR

ME News: 21 квітня (UTC+8), за даними Beating, компанія Sierra, що розробляє AI-сервіси для служби підтримки, відкрила багатомовний набір даних для оцінки автоматичного розпізнавання мови (ASR) під назвою μ-Bench. Дані зібрані з 250 реальних телефонних розмов з службою підтримки та 4 270 ручно анотованих аудіозаписів, з частотою дискретизації 8 кГц, моно. Попередні публічні набори даних для оцінки ASR стосувалися лише англійської мови або використовували записи зі студії, що робить їх майже непридатними для команд, що планують інтегрувати голосових агентів у багатомовні сервіси підтримки. μ-Bench безпосередньо заповнює цю прогалину за допомогою реальних розмов. Цей випуск є підмножиною повного внутрішнього набору оцінок Sierra. Внутрішній набір охоплює 42 мови, 79 регіональних варіантів та понад 13 постачальників. У відкритому випуску представлено п’ять мовних регіонів — англійська, іспанська, турецька, в’єтнамська та китайська — та результати п’яти постачальників: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 та OpenAI GPT-4o Mini Transcribe. Код, набір даних (розміщений на Hugging Face) та відкритий рейтинг опубліковано разом — інші постачальники запрошуються надсилати свої результати. Найбільш інформативним елементом оцінки є новий показник — UER (Utterance Error Rate, рівень помилок на рівні висловлювання), який розділяє помилки, що змінюють зміст, від незначних. Традиційний WER (рівень помилок на рівні символів) вважає однаковою помилку пропущеного «е» та неправильного розпізнавання номера телефону, але для голосового агента, що виконує дії на основі транскрипції, саме друга помилка призводить до збоїв у процесі. Sierra зазначає, що двоє постачальників з подібним WER можуть мати значно різний UER, оскільки типи їхніх помилок відрізняються. Щодо результатів: Google Chirp-3 показав найвищу точність, але найповільніший час висновку; Deepgram Nova-3 має p50 затримку майже в 8 разів меншу, але найнижчу точність у багатомовному режимі. Помилки розпізнавання китайської мови можуть досягати п’ятикратного рівня англійської, а розбіжності між постачальниками у в’єтнамській мові також значні — цих розбіжностей неможливо побачити лише за англійськими базовими показниками. (Джерело: BlockBeats)