Sierra เปิดแหล่งที่มาของ μ-Bench สำหรับการประเมิน ASR แบบหลายภาษา

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
Sierra บริษัทปัญญาประดิษฐ์ด้านบริการลูกค้า ได้เปิดแหล่งที่มาของ μ-Bench ซึ่งเป็นชุดการทดสอบ ASR แบบหลายภาษาที่มีบันทึกการโทรจริง 250 รายการและตัวอย่างที่ระบุข้อมูลแล้ว 4,270 ตัวอย่าง ชุดข้อมูลนี้ใช้เสียงความถี่ 8kHz และแนะนำตัวชี้วัด UER เพื่อติดตามข้อผิดพลาดที่มีความหมาย ผลลัพธ์แสดงว่าอัตราข้อผิดพลาดของภาษาจีนกลางสูงกว่าภาษาอังกฤษถึงห้าเท่า การเปิดตัวนี้เกิดขึ้นในช่วงที่ความสนใจในรายการโทเค็นใหม่เพิ่มสูงขึ้น และตลาดกำลังตอบสนองต่อข้อมูลเงินเฟ้อ

ข่าวจาก ME News เมื่อวันที่ 21 เมษายน (UTC+8) ตามการติดตามของ Beating บริษัท AI ด้านบริการลูกค้า Sierra เปิดตัวชุดข้อมูลประเมินการรับรู้เสียงหลายภาษา (ASR) ชื่อ μ-Bench ซึ่งข้อมูลได้มาจากบันทึกเสียงการสนทนาทางโทรศัพท์จริง 250 สาย และเสียงที่ได้รับการติดป้ายกำกับด้วยมนุษย์ 4,270 รายการ โดยมีอัตราการสุ่มตัวอย่าง 8kHz และแบบโมโน ชุดข้อมูลประเมิน ASR ที่เคยเปิดเผยก่อนหน้านี้มักจำกัดเฉพาะภาษาอังกฤษหรือใช้ข้อมูลที่อ่านจากสตูดิโอ ซึ่งแทบไม่มีประโยชน์สำหรับทีมที่ต้องการเชื่อมต่อแอจีนต์เสียงเข้ากับบริบทบริการลูกค้าหลายภาษา μ-Bench จึงเติมช่องว่างนี้โดยใช้บันทึกการสนทนาจริง ชุดข้อมูลที่เปิดเผยในครั้งนี้เป็นส่วนย่อยของชุดการประเมินภายในของ Sierra ซึ่งครอบคลุม 42 ภาษา 79 รูปแบบภูมิภาค และซัพพลายเออร์มากกว่า 13 ราย โดยในครั้งนี้เปิดตัวเฉพาะภาษาอังกฤษ สเปน ตุรกี เวียดนาม และจีนกลาง พร้อมผลการประเมินจากผู้ให้บริการห้ารายได้แก่ Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 และ OpenAI GPT-4o Mini Transcribe รหัส ชุดข้อมูล (โฮสต์บน Hugging Face) และรายการเปิดเผยแบบสาธารณะถูกเปิดให้ใช้งานพร้อมกัน และเชิญผู้ให้บริการรายอื่นส่งผลการประเมินเข้าร่วม จุดที่มีข้อมูลใหม่จริงๆ ในการประเมินคือตัวชี้วัดใหม่ที่ Sierra นำเสนอคือ UER (Utterance Error Rate, อัตราความผิดพลาดระดับประโยค) ซึ่งแยกความผิดพลาดที่เปลี่ยนความหมายเดิมออกจากความผิดพลาดที่ไม่สำคัญ ตัวชี้วัด WER (Word Error Rate, อัตราความผิดพลาดระดับคำ) เดิมถือว่าการละคำว่า “呃” และการฟังผิดหมายเลขโทรศัพท์เป็นข้อผิดพลาดประเภทเดียวกัน แต่สำหรับแอจีนต์เสียงที่ต้องดำเนินการตามคำถอดเสียง การฟังผิดหมายเลขโทรศัพท์เท่านั้นที่จะทำให้กระบวนการผิดพลาด Sierra ระบุว่าผู้ให้บริการสองรายที่มี WER เหมือนกันอาจมี UER ต่างกันมาก เพราะประเภทของข้อผิดพลาดที่เกิดขึ้นต่างกัน ในแง่ผลลัพธ์ Google Chirp-3 มีความแม่นยำสูงสุดแต่มีเวลาประมวลผลช้ากว่า ในขณะที่ Deepgram Nova-3 มีค่า p50 latency เร็วกว่าเกือบ 8 เท่าแต่มีความแม่นยำในหลายภาษาต่ำสุด อัตราความผิดพลาดในการรับรู้ภาษาจีนกลางสามารถสูงถึงห้าเท่าของภาษาอังกฤษ และความแตกต่างระหว่างผู้ให้บริการในภาษาเวียดนามก็มีมากเช่นกัน ความแตกต่างเหล่านี้ไม่สามารถมองเห็นได้หากพิจารณาเพียงมาตรฐานภาษาอังกฤษเท่านั้น (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา