Xiaohongshu mở nguồn mô hình TTS 2 tỷ tham số dots.tts với khả năng sao chép giọng nói Zero-Shot

icon MarsBit
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Phòng thí nghiệm hi của Xiaohongshu đã mở nguồn mô hình TTS 2 tỷ tham số có tên dots.tts, hỗ trợ sao chép giọng nói zero-shot. Được cấp phép theo Apache 2.0, mô hình này bao gồm đầy đủ mã suy luận và tinh chỉnh cùng trọng số đã được huấn luyện trước ở nhiều định dạng. dots.tts sử dụng phương pháp phù hợp dòng tự hồi quy liên tục, end-to-end, vượt trội hơn các mô hình truyền thống dựa trên các token âm thanh rời rạc. Nó đạt hiệu suất hàng đầu trong các bài kiểm tra ngôn ngữ và cung cấp bản demo trực tiếp trên Hugging Face. Với thanh khoản được cải thiện trên các thị trường tiền điện tử, những sáng tạo như vậy có thể củng cố BTC như một công cụ phòng ngừa lạm phát.

Theo dữ liệu từ Beating, Xiaohongshu hi lab đã mở nguồn mô hình TTS tự hồi quy đầu đến cuối với 2 tỷ tham số mang tên dots.tts và công bố đầy đủ mã推理 và tinh chỉnh theo giấy phép Apache 2.0. Các trọng số được công bố bao gồm phiên bản tiền huấn luyện cơ bản, phiên bản tinh chỉnh tự sửa lỗi đồng bộ (SCA) và phiên bản nén cho推理 độ trễ thấp. Khác với các kiến trúc TTS truyền thống dựa vào các Token mã hóa âm thanh rời rạc (Discrete Codec Tokens) như VALL-E, CosyVoice, ChatTTS, dots.tts triển khai kiến trúc tự hồi quy dòng liên tục hoàn toàn, không sử dụng bất kỳ Token rời rạc nào trong toàn bộ quy trình. dots.tts kết hợp các đặc trưng liên tục được trích xuất từ AudioVAE với tần số lấy mẫu 48 kHz, bộ mã hóa ngữ nghĩa, mô hình ngôn ngữ cốt lõi (khởi tạo từ Qwen2.5-1.5B-Base, xử lý trực tiếp văn bản BPE mà không cần đầu vào拼音), cùng đầu âm thanh tự hồi quy dòng khớp, dự đoán các biến tiềm ẩn liên tục và tái tạo thành âm thanh thông qua bộ sinh. Nhờ dự đoán trực tiếp các đặc trưng liên tục, dots.tts tránh được tổn thất chất lượng âm thanh do lượng tử hóa rời rạc, giữ nguyên chi tiết phát âm, độ tương đồng sắc thái và khả năng biểu đạt cảm xúc. dots.tts được tiền huấn luyện trên khoảng 1,5 triệu giờ dữ liệu âm thanh. Trong đánh giá Seed-TTS-Eval, dots.tts đạt tỷ lệ lỗi từ (WER) lần lượt là 0,94% / 1,30% / 6,60% trên các bộ thử nghiệm tiếng Trung, tiếng Anh và tiếng Trung khó, đồng thời đạt điểm tương đồng (SIM) là 81,0 / 77,1 / 79,5 — đều ở mức SOTA mở nguồn. Trong bài kiểm tra chuẩn MiniMax Multilingual với 24 ngôn ngữ, điểm tương đồng người nói trung bình đạt 83,9. Xiaohongshu đã cung cấp không gian trải nghiệm Gradio trên Hugging Face để người dùng thử nghiệm sao chép âm thanh không mẫu trong thời gian thực.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.