सिएरा ने बहुभाषी ASR मूल्यांकन के लिए μ-Bench को ओपन सोर्स किया

ME समाचार के अनुसार, 21 अप्रैल (UTC+8) को, डिंगचा बीटिंग के अनुसार, कस्टमर सर्विस AI कंपनी Sierra ने बहुभाषी वॉइस रिकग्निशन (ASR) इवैल्यूएशन डेटासेट μ-Bench को ओपन सोर्स किया है, जिसमें 250 वास्तविक कस्टमर सर्विस कॉल रिकॉर्डिंग्स और 4,270 हस्तलिखित वॉइस नमूने शामिल हैं, जिनकी नमूना दर 8kHz और मोनो है। पहले जारी ASR इवैल्यूएशन सिर्फ अंग्रेजी पर केंद्रित थे या स्टूडियो में पढ़े गए सामग्री का उपयोग करते थे, जो बहुभाषी कस्टमर सर्विस स्थिति में वॉइस एजेंट को जोड़ने वाली टीमों के लिए लगभग अप्रासंगिक हैं। μ-Bench इस खाली स्थान को सीधे वास्तविक कॉल्स से भरता है। इस बार जारी किया गया Sierra के आंतरिक पूरे इवैल्यूएशन सेट का एक सबसेट है। आंतरिक रूप से, यह 42 भाषाओं, 79 क्षेत्रीय विविधताओं और 13 से अधिक सप्लायर्स को कवर करता है; इस ओपन सोर्स संस्करण में केवल अंग्रेजी, स्पेनिश, तुर्की, वियतनामी और मंदारिन पाँच क्षेत्रों, और Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2, OpenAI GPT-4o Mini Transcribe पाँच कंपनियों के परिणाम शामिल हैं। कोड, डेटासेट (Hugging Face पर होस्ट) और एक ओपन लीडरबोर्ड सभी सार्वजनिक किए गए हैं, और अन्य कंपनियों को सबमिट करने के लिए स्वागत है। इवैल्यूएशन में सचमुच नया महत्वपूर्ण पहलू मेट्रिक है। Sierra ने UER (Utterance Error Rate, वाक्य-स्तरीय त्रुटि दर) नामक एक नया मेट्रिक पेश किया है, जो मूल अर्थ को बदलने वाली त्रुटियों को महत्वहीन त्रुटियों से अलग-अलग मापता है। पारंपरिक WER (Word Error Rate) "呃" के प्रति "अ" के मिस होने को पहचानने में हुई त्रुटि के समान मानता है, परंतु किसी स्पीच-आधारित एजेंट के लिए, पहचान में हुई पहचान-त्रुटि (जैसे: मोबाइल नंबर) ही प्रक्रिया में समस्या पैदा करती है। Sierra का कहना है कि WER में समान प्रदर्शन करने वाली दो कंपनियों का UER काफी अलग हो सकता है, क्योंकि उनकी हुई त्रुटि के प्रकार में ही मतभेद होता है। परिणामों के संदर्भ में, Google Chirp-3 सटीकता में सबसे आगे है, परंतु प्रसंस्करण समय में धीमा है; Deepgram Nova-3 p50 लेटेंसी में 8x तेज़ है, परंतु बहुभाषी सटीकता में सबसे पीछे है। मंदारिन पहचान में 5x-गुना सटीकता में कमी हो सकती है,औरवियतनामी मेंकंपनियोंकेबीचअंतरभीबहुतअधिकहै—यहअंतरकेवलअंग्रेजीबेंचमार्कसेदेखनेपरअदृश्यहोताहै। (स्रोत: BlockBeats)