Sierra open-source μ-Bench pour l'évaluation multilingue de la reconnaissance automatique de la parole

Selon les nouvelles de ME, le 21 avril (UTC+8), selon les données recueillies par Beating, l'entreprise d'IA clientèle Sierra a open-sourcé μ-Bench, un jeu d'évaluation multilingue pour la reconnaissance vocale (ASR), composé de 250 enregistrements réels d'appels clientèle et de 4 270 phrases annotées manuellement, avec une fréquence d'échantillonnage de 8 kHz en mono. Les évaluations ASR précédemment publiées se limitaient soit à l'anglais, soit utilisaient des énoncés lus en studio, ce qui les rendait presque inutilisables pour les équipes visant à intégrer des agents vocaux dans des scénarios clientèle multilingues. μ-Bench remplit directement ce vide en utilisant des appels réels. Cette version publiée constitue un sous-ensemble de l'ensemble complet des évaluations internes de Sierra, qui couvrent 42 langues, 79 variantes régionales et plus de 13 fournisseurs. La version open-source inclut cinq langues/régions : anglais, espagnol, turc, vietnamien et chinois mandarin, ainsi que les performances de cinq fournisseurs : Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 et OpenAI GPT-4o Mini Transcribe. Le code, l'ensemble de données (hébergé sur Hugging Face) et un classement ouvert sont désormais accessibles, et d'autres fournisseurs sont invités à soumettre leurs résultats. Les informations les plus novatrices résident dans les indicateurs. Sierra a introduit un nouvel indicateur, l'UER (Utterance Error Rate, taux d'erreur au niveau de l'énoncé), qui distingue les erreurs modifiant le sens original des erreurs mineures. L'ancien WER (Word Error Rate, taux d'erreur par mot) considère une omission de « euh » et une erreur dans un numéro de téléphone comme équivalentes, mais pour un agent vocal exécutant des actions basées sur la transcription, seule la seconde perturbe le processus. Sierra affirme que deux fournisseurs avec des WER similaires peuvent présenter des UER très différents, car leurs types d'erreurs diffèrent. Sur le plan des résultats, Google Chirp-3 affiche la meilleure précision mais un temps d'inférence plus lent ; Deepgram Nova-3 présente une latence p50 près de 8 fois plus rapide, mais la précision multilingue la plus faible. Le taux d'erreur en chinois mandarin peut atteindre cinq fois celui de l'anglais, et les écarts entre fournisseurs pour le vietnamien sont également très marqués — des écarts invisibles lorsqu'on se base uniquement sur les benchmarks en anglais. (Source : BlockBeats)