सिएरा ने बहुभाषी ASR मूल्यांकन के लिए μ-Bench को ओपन सोर्स किया

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
सिएर्रा, एक कस्टमर सर्विस एआई फर्म, ने μ-Bench को ओपन-सोर्स किया है, जो 250 वास्तविक कॉल रिकॉर्डिंग्स और 4,270 एनोटेटेड सैंपल्स के साथ एक बहुभाषी एएसआर बेंचमार्क है। डेटासेट 8kHz ऑडियो का उपयोग करता है और UER नामक एक मीट्रिक पेश करता है जो अर्थपूर्ण त्रुटियों को ट्रैक करता है। परिणाम दर्शाते हैं कि मंडरिन में त्रुटि दर अंग्रेजी की तुलना में पांच गुना अधिक है। यह रिलीज नए टोकन सूचीकरण में बढ़ती रुचि के साथ आई है और बाजार अनुपाती डेटा के प्रति प्रतिक्रिया दे रहे हैं।

ME समाचार के अनुसार, 21 अप्रैल (UTC+8) को, डिंगचा बीटिंग के अनुसार, कस्टमर सर्विस AI कंपनी Sierra ने बहुभाषी वॉइस रिकग्निशन (ASR) इवैल्यूएशन डेटासेट μ-Bench को ओपन सोर्स किया है, जिसमें 250 वास्तविक कस्टमर सर्विस कॉल रिकॉर्डिंग्स और 4,270 हस्तलिखित वॉइस नमूने शामिल हैं, जिनकी नमूना दर 8kHz और मोनो है। पहले जारी ASR इवैल्यूएशन सिर्फ अंग्रेजी पर केंद्रित थे या स्टूडियो में पढ़े गए सामग्री का उपयोग करते थे, जो बहुभाषी कस्टमर सर्विस स्थिति में वॉइस एजेंट को जोड़ने वाली टीमों के लिए लगभग अप्रासंगिक हैं। μ-Bench इस खाली स्थान को सीधे वास्तविक कॉल्स से भरता है। इस बार जारी किया गया Sierra के आंतरिक पूरे इवैल्यूएशन सेट का एक सबसेट है। आंतरिक रूप से, यह 42 भाषाओं, 79 क्षेत्रीय विविधताओं और 13 से अधिक सप्लायर्स को कवर करता है; इस ओपन सोर्स संस्करण में केवल अंग्रेजी, स्पेनिश, तुर्की, वियतनामी और मंदारिन पाँच क्षेत्रों, और Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2, OpenAI GPT-4o Mini Transcribe पाँच कंपनियों के परिणाम शामिल हैं। कोड, डेटासेट (Hugging Face पर होस्ट) और एक ओपन लीडरबोर्ड सभी सार्वजनिक किए गए हैं, और अन्य कंपनियों को सबमिट करने के लिए स्वागत है। इवैल्यूएशन में सचमुच नया महत्वपूर्ण पहलू मेट्रिक है। Sierra ने UER (Utterance Error Rate, वाक्य-स्तरीय त्रुटि दर) नामक एक नया मेट्रिक पेश किया है, जो मूल अर्थ को बदलने वाली त्रुटियों को महत्वहीन त्रुटियों से अलग-अलग मापता है। पारंपरिक WER (Word Error Rate) "呃" के प्रति "अ" के मिस होने को पहचानने में हुई त्रुटि के समान मानता है, परंतु किसी स्पीच-आधारित एजेंट के लिए, पहचान में हुई पहचान-त्रुटि (जैसे: मोबाइल नंबर) ही प्रक्रिया में समस्या पैदा करती है। Sierra का कहना है कि WER में समान प्रदर्शन करने वाली दो कंपनियों का UER काफी अलग हो सकता है, क्योंकि उनकी हुई त्रुटि के प्रकार में ही मतभेद होता है। परिणामों के संदर्भ में, Google Chirp-3 सटीकता में सबसे आगे है, परंतु प्रसंस्करण समय में धीमा है; Deepgram Nova-3 p50 लेटेंसी में 8x तेज़ है, परंतु बहुभाषी सटीकता में सबसे पीछे है। मंदारिन पहचान में 5x-गुना सटीकता में कमी हो सकती है,औरवियतनामी मेंकंपनियोंकेबीचअंतरभीबहुतअधिकहै—यहअंतरकेवलअंग्रेजीबेंचमार्कसेदेखनेपरअदृश्यहोताहै। (स्रोत: BlockBeats)

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।