ME News: 21 квітня (UTC+8), за даними Beating, компанія Sierra, що розробляє AI-сервіси для служби підтримки, відкрила багатомовний набір даних для оцінки автоматичного розпізнавання мови (ASR) під назвою μ-Bench. Дані зібрані з 250 реальних телефонних розмов з службою підтримки та 4 270 ручно анотованих аудіозаписів, з частотою дискретизації 8 кГц, моно. Попередні публічні набори даних для оцінки ASR стосувалися лише англійської мови або використовували записи зі студії, що робить їх майже непридатними для команд, що планують інтегрувати голосових агентів у багатомовні сервіси підтримки. μ-Bench безпосередньо заповнює цю прогалину за допомогою реальних розмов. Цей випуск є підмножиною повного внутрішнього набору оцінок Sierra. Внутрішній набір охоплює 42 мови, 79 регіональних варіантів та понад 13 постачальників. У відкритому випуску представлено п’ять мовних регіонів — англійська, іспанська, турецька, в’єтнамська та китайська — та результати п’яти постачальників: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 та OpenAI GPT-4o Mini Transcribe. Код, набір даних (розміщений на Hugging Face) та відкритий рейтинг опубліковано разом — інші постачальники запрошуються надсилати свої результати. Найбільш інформативним елементом оцінки є новий показник — UER (Utterance Error Rate, рівень помилок на рівні висловлювання), який розділяє помилки, що змінюють зміст, від незначних. Традиційний WER (рівень помилок на рівні символів) вважає однаковою помилку пропущеного «е» та неправильного розпізнавання номера телефону, але для голосового агента, що виконує дії на основі транскрипції, саме друга помилка призводить до збоїв у процесі. Sierra зазначає, що двоє постачальників з подібним WER можуть мати значно різний UER, оскільки типи їхніх помилок відрізняються. Щодо результатів: Google Chirp-3 показав найвищу точність, але найповільніший час висновку; Deepgram Nova-3 має p50 затримку майже в 8 разів меншу, але найнижчу точність у багатомовному режимі. Помилки розпізнавання китайської мови можуть досягати п’ятикратного рівня англійської, а розбіжності між постачальниками у в’єтнамській мові також значні — цих розбіжностей неможливо побачити лише за англійськими базовими показниками. (Джерело: BlockBeats)
Sierra відкриває джерела μ-Bench для оцінки багатомовних систем ASR
KuCoinFlashПоділитися






Sierra, компанія зі збуту AI для служби підтримки клієнтів, відкрила джерела μ-Bench — бенчмарк багатомовної системи автоматичного розпізнавання мови з 250 реальними аудіозаписами дзвінків та 4 270 анотованими зразками. Набір даних використовує аудіо з частотою 8 кГц і вводить метрику UER для відстеження значущих помилок. Результати показують, що рівень помилок у китайській мові в п’ять разів вищий, ніж у англійській. Це видання з’явилося на тлі зростаючого інтересу до нових лістингів токенів і реакції ринків на дані про інфляцію.
Джерело:Показати оригінал
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.