Xiaohongshu, sıfır örnekleme ses klonlamalı 2B parametreli TTS modelini dots.tts olarak açık kaynak hale getirdi

Beating İzleme'ye göre, Xiaohongshu hi lab, 2 milyar parametreli端到端 otoregresif metinden sese (TTS) modeli dots.tts'yi açık kaynak hale getirdi ve tam çıkarım ve ince ayar kodlarını Apache 2.0 lisansı altında yayınladı. Yayınlanan ağırlıklar, temel ön-eğitim versiyonunu, kendi kendini düzeltme hizalama (SCA) ince ayar versiyonunu ve düşük gecikmeli çıkarım distilasyon versiyonunu içerir. VALL-E, CosyVoice, ChatTTS gibi geleneksel TTS mimarilerinin aksine, dots.tts tamamen sürekli,端到end otoregresif akış eşleştirme mimarisi uygular ve tüm işlem hattında hiçbir ayrık token kullanmaz. dots.tts, 48 kHz örnekleme oranlı AudioVAE tarafından çıkarılan sürekli özellikleri, semantik kodlayıcı, temel dil modeli (Qwen2.5-1.5B-Base'ten başlatılmış, doğrudan BPE metinlerini işler, pinyin girişi gerekmez) ve otoregresif akış eşleştirme akustik başlığını birleştirerek sürekli gizli değişkenleri tahmin eder ve üreteç tarafından ses olarak yeniden oluşturulur. Sürekli özelliklerin doğrudan tahmin edilmesi sayesinde dots.tts, ayrık kuantizasyondan kaynaklanan ses kalitesi kaybını önler ve telaffuz detaylarını, ses benzerliğini ve duygusal ifade gücünü korur. dots.tts, yaklaşık 1,5 milyon saat ses verisiyle ön-eğitim gördü. Seed-TTS-Eval değerlendirmesinde, dots.tts Çince, İngilizce ve Çince zor test setlerindeki kelime hata oranı (WER) sırasıyla %0,94 / %1,30 / %6,60, benzerlik skoru (SIM) ise 81,0 / 77,1 / 79,5 olarak açık kaynak SOTA seviyesine ulaştı. 24 dil için MiniMax Çokdilli benchmark testinde ortalama konuşmacı benzerliği %83,9 olarak ölçüldü. Xiaohongshu, kullanıcıların sıfır örnek ses klonlamasını çevrimiçi olarak test etmeleri için Hugging Face'de bir Gradio deneyim alanı sundu.