Selon les nouvelles de ME, le 21 avril (UTC+8), selon les données recueillies par Beating, l'entreprise d'IA clientèle Sierra a open-sourcé μ-Bench, un jeu d'évaluation multilingue pour la reconnaissance vocale (ASR), composé de 250 enregistrements réels d'appels clientèle et de 4 270 phrases annotées manuellement, avec une fréquence d'échantillonnage de 8 kHz en mono. Les évaluations ASR précédemment publiées se limitaient soit à l'anglais, soit utilisaient des énoncés lus en studio, ce qui les rendait presque inutilisables pour les équipes visant à intégrer des agents vocaux dans des scénarios clientèle multilingues. μ-Bench remplit directement ce vide en utilisant des appels réels. Cette version publiée constitue un sous-ensemble de l'ensemble complet des évaluations internes de Sierra, qui couvrent 42 langues, 79 variantes régionales et plus de 13 fournisseurs. La version open-source inclut cinq langues/régions : anglais, espagnol, turc, vietnamien et chinois mandarin, ainsi que les performances de cinq fournisseurs : Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 et OpenAI GPT-4o Mini Transcribe. Le code, l'ensemble de données (hébergé sur Hugging Face) et un classement ouvert sont désormais accessibles, et d'autres fournisseurs sont invités à soumettre leurs résultats. Les informations les plus novatrices résident dans les indicateurs. Sierra a introduit un nouvel indicateur, l'UER (Utterance Error Rate, taux d'erreur au niveau de l'énoncé), qui distingue les erreurs modifiant le sens original des erreurs mineures. L'ancien WER (Word Error Rate, taux d'erreur par mot) considère une omission de « euh » et une erreur dans un numéro de téléphone comme équivalentes, mais pour un agent vocal exécutant des actions basées sur la transcription, seule la seconde perturbe le processus. Sierra affirme que deux fournisseurs avec des WER similaires peuvent présenter des UER très différents, car leurs types d'erreurs diffèrent. Sur le plan des résultats, Google Chirp-3 affiche la meilleure précision mais un temps d'inférence plus lent ; Deepgram Nova-3 présente une latence p50 près de 8 fois plus rapide, mais la précision multilingue la plus faible. Le taux d'erreur en chinois mandarin peut atteindre cinq fois celui de l'anglais, et les écarts entre fournisseurs pour le vietnamien sont également très marqués — des écarts invisibles lorsqu'on se base uniquement sur les benchmarks en anglais. (Source : BlockBeats)
Sierra open-source μ-Bench pour l'évaluation multilingue de la reconnaissance automatique de la parole
KuCoinFlashPartager






Sierra, une entreprise d’intelligence artificielle en service client, a open-sourcé μ-Bench, un benchmark multilingue de reconnaissance automatique de la parole comprenant 250 enregistrements d’appels réels et 4 270 échantillons annotés. L’ensemble de données utilise des fichiers audio à 8 kHz et introduit l’UER, une métrique pour suivre les erreurs significatives. Les résultats montrent que les taux d’erreur en mandarin sont jusqu’à cinq fois plus élevés qu’en anglais. Cette publication intervient au moment où l’intérêt pour les nouveaux listings de jetons augmente et que les marchés réagissent aux données sur l’inflation.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.