Theo theo dõi của Beating, nhóm Kaldi thế hệ mới của Phòng thí nghiệm AI Xiaomi đã mở nguồn OmniVoice, một mô hình TTS (chuyển văn bản thành giọng nói) không cần mẫu huấn luyện, hỗ trợ 646 ngôn ngữ. Chỉ cần vài giây âm thanh tham chiếu, mô hình có thể sao chép giọng nói và hoạt động xuyên ngôn ngữ: cung cấp một bản ghi âm tiếng Trung, mô hình có thể phát ra tiếng Nhật, tiếng Hàn hoặc các ngôn ngữ khác bằng cùng một giọng nói. Mã nguồn, trọng số và dữ liệu huấn luyện đều được mở nguồn dưới giấy phép Apache-2.0. Về kiến trúc, OmniVoice theo đuổi lối tiếp cận cực kỳ đơn giản. Toàn bộ mô hình chỉ gồm một Transformer hai chiều, trực tiếp ánh xạ từ văn bản sang các token âm học đa mã hóa (mã hóa rời rạc của âm thanh), không cần qua quy trình hai giai đoạn chuyển từ token ngữ nghĩa sang token âm học. Hai thiết kế then chốt hỗ trợ cấu trúc đơn giản này: chiến lược che mờ ngẫu nhiên toàn bộ mã hóa nâng cao hiệu suất huấn luyện, và khởi tạo tham số từ mô hình ngôn ngữ lớn để cải thiện độ chính xác phát âm. Tốc độ suy luận đạt 40 lần thực tế, chạy trực tiếp trên PyTorch mà không cần tối ưu hóa bổ sung. Dữ liệu huấn luyện được lấy hoàn toàn từ 50 bộ dữ liệu âm thanh mở nguồn, sau khi lọc nhiễu và đánh giá chất lượng, tổng cộng đạt 580.000 giờ. Các ngôn ngữ ít tài nguyên được tăng cường động để đảm bảo hiệu quả huấn luyện. Trong bài kiểm tra với 24 ngôn ngữ, OmniVoice vượt trội về độ tương đồng và khả năng hiểu được so với nhiều hệ thống thương mại. Trong bài kiểm tra với 102 ngôn ngữ, khả năng hiểu được gần như hoặc vượt cả bản ghi âm thật. Ngay cả các ngôn ngữ ít tài nguyên với dữ liệu huấn luyện dưới 10 giờ cũng có thể tạo ra giọng nói. Ngoài sao chép giọng nói, mô hình còn hỗ trợ tùy chỉnh giọng nói qua mô tả văn bản (ví dụ: “nam, trung niên, tần số cực thấp” hoặc “nữ, thanh niên, phương ngữ Tứ Xuyên”), tự động khử nhiễu cho âm thanh tham chiếu có nhiễu, chèn các ký hiệu cảm xúc như tiếng cười, tiếng thở dài, cũng như sửa phát âm cho các từ đa âm và danh từ riêng trong tiếng Trung và tiếng Anh.
Xiaomi mở nguồn OmniVoice: Mô hình sao chép giọng nói 646 ngôn ngữ được huấn luyện trên dữ liệu mở
MarsBitChia sẻ






Đội Kaldi của Xiaomi AI Lab đã mở nguồn OmniVoice, một mô hình chuyển văn bản thành giọng nói không cần huấn luyện, hỗ trợ 646 ngôn ngữ. Mô hình này có thể sao chép đặc tính giọng nói chỉ với vài giây âm thanh tham chiếu và hoạt động xuyên suốt các ngôn ngữ. Được huấn luyện trên dữ liệu mở, nó vượt trội hơn các hệ thống thương mại về độ tương đồng giọng nói và khả năng hiểu được. Dữ liệu trên chuỗi cho thấy sự quan tâm ngày càng tăng đối với các công cụ AI, với khối lượng vị thế chưa đóng của các dự án liên quan đang tăng đều đặn. Mô hình sử dụng một Transformer đơn hướng hai chiều và được tối ưu hóa để suy luận nhanh.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.