Sierra công khai μ-Bench để đánh giá ASR đa ngôn ngữ

iconKuCoinFlash
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Sierra, một công ty AI về dịch vụ khách hàng, đã mở nguồn μ-Bench, một bộ chuẩn ASR đa ngôn ngữ với 250 bản ghi cuộc gọi thực tế và 4.270 mẫu đã ghi chú. Bộ dữ liệu sử dụng âm thanh 8kHz và giới thiệu UER, một chỉ số để theo dõi các lỗi có ý nghĩa. Kết quả cho thấy tỷ lệ lỗi tiếng Quan Thoại cao gấp năm lần so với tiếng Anh. Việc phát hành này diễn ra trong bối cảnh sự quan tâm ngày càng tăng đối với các danh sách token mới và các thị trường phản ứng với dữ liệu lạm phát.

Theo tin tức từ ME News, vào ngày 21 tháng 4 (UTC+8), theo giám sát của Dongcha Beating, công ty AI dịch vụ khách hàng Sierra đã phát hành bộ dữ liệu đánh giá nhận dạng giọng nói đa ngôn ngữ (ASR) mang tên μ-Bench, với dữ liệu lấy từ 250 cuộc gọi dịch vụ khách hàng thực tế và 4.270 đoạn âm thanh được gán nhãn thủ công, tần số lấy mẫu 8kHz, đơn kênh. Các bộ đánh giá ASR trước đây công khai thường chỉ tập trung vào tiếng Anh hoặc sử dụng dữ liệu đọc trong phòng thu, gần như không thể tham khảo đối với các đội ngũ muốn tích hợp agent giọng nói vào bối cảnh dịch vụ khách hàng đa ngôn ngữ. μ-Bench trực tiếp lấp đầy khoảng trống này bằng các cuộc gọi thực tế. Phiên bản được công khai lần này là một tập con của toàn bộ bộ đánh giá nội bộ của Sierra. Nội bộ Sierra bao phủ 42 ngôn ngữ, 79 biến thể khu vực và hơn 13 nhà cung cấp; phiên bản mã nguồn mở lần này bao gồm năm ngôn ngữ: tiếng Anh, Tây Ban Nha, Thổ Nhĩ Kỳ, Việt Nam và tiếng Quan Thoại, cùng với điểm số của năm nhà cung cấp: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 và OpenAI GPT-4o Mini Transcribe. Mã nguồn, bộ dữ liệu (được lưu trên Hugging Face) và một bảng xếp hạng mở đã được công bố đồng thời, chào đón các nhà cung cấp khác gửi kết quả. Thông tin mới thực sự trong đánh giá nằm ở các chỉ số. Sierra đề xuất một chỉ số mới gọi là UER (Utterance Error Rate - Tỷ lệ lỗi ở cấp câu nói), phân biệt giữa các lỗi làm thay đổi ý nghĩa gốc và các lỗi không quan trọng. Chỉ số WER (tỷ lệ lỗi từ) truyền thống coi việc bỏ sót một tiếng “呃” và nghe nhầm một con số điện thoại là cùng một loại lỗi, nhưng đối với một agent giọng nói thực hiện hành động dựa trên bản ghi âm, thì lỗi sau mới gây ra sai lệch trong quy trình. Sierra cho biết hai nhà cung cấp có WER tương đương có thể có UER chênh lệch rất lớn, vì loại lỗi họ mắc phải hoàn toàn khác nhau. Về kết quả, Google Chirp-3 dẫn đầu về độ chính xác nhưng tốc độ suy luận chậm hơn; Deepgram Nova-3 có độ trễ p50 nhanh gần 8 lần nhưng lại có độ chính xác đa ngôn ngữ thấp nhất. Tỷ lệ lỗi nhận dạng tiếng Quan Thoại có thể cao gấp 5 lần so với tiếng Anh, và sự chênh lệch giữa các nhà cung cấp đối với tiếng Việt cũng rất lớn — những sự khác biệt này không thể nhìn thấy nếu chỉ dựa vào tiêu chuẩn tiếng Anh. (Nguồn: BlockBeats)

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.