Xiaohongshu, sıfır örnekleme ses klonlamalı 2B parametreli TTS modelini dots.tts olarak açık kaynak hale getirdi

icon MarsBit
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
Xiaohongshu'nun hi laboratuvarı, sıfır örnekleme ses klonlamayı destekleyen 2 milyar parametreli bir TTS modeli olan dots.tts'yi açık kaynak hale getirdi. Apache 2.0 lisansı altında sunulan bu model, birden fazla formatta önceden eğitilmiş ağırlıklarla tam çıkarım ve ince ayar kodlarına sahiptir. dots.tts, diskret ses belirteçlerine dayanan geleneksel modelleri aşan, sürekli, uçtan uca otoregresif akış uyumu yaklaşımını kullanır. Dil performans testlerinde en üst düzey performans gösterir ve Hugging Face'de canlı bir demo sunar. Kripto piyasalarında likidite artışı ile bu tür yenilikler, BTC'yi enflasyona karşı bir koruma aracı olarak güçlendirebilir.

Beating İzleme'ye göre, Xiaohongshu hi lab, 2 milyar parametreli端到端 otoregresif metinden sese (TTS) modeli dots.tts'yi açık kaynak hale getirdi ve tam çıkarım ve ince ayar kodlarını Apache 2.0 lisansı altında yayınladı. Yayınlanan ağırlıklar, temel ön-eğitim versiyonunu, kendi kendini düzeltme hizalama (SCA) ince ayar versiyonunu ve düşük gecikmeli çıkarım distilasyon versiyonunu içerir. VALL-E, CosyVoice, ChatTTS gibi geleneksel TTS mimarilerinin aksine, dots.tts tamamen sürekli,端到end otoregresif akış eşleştirme mimarisi uygular ve tüm işlem hattında hiçbir ayrık token kullanmaz. dots.tts, 48 kHz örnekleme oranlı AudioVAE tarafından çıkarılan sürekli özellikleri, semantik kodlayıcı, temel dil modeli (Qwen2.5-1.5B-Base'ten başlatılmış, doğrudan BPE metinlerini işler, pinyin girişi gerekmez) ve otoregresif akış eşleştirme akustik başlığını birleştirerek sürekli gizli değişkenleri tahmin eder ve üreteç tarafından ses olarak yeniden oluşturulur. Sürekli özelliklerin doğrudan tahmin edilmesi sayesinde dots.tts, ayrık kuantizasyondan kaynaklanan ses kalitesi kaybını önler ve telaffuz detaylarını, ses benzerliğini ve duygusal ifade gücünü korur. dots.tts, yaklaşık 1,5 milyon saat ses verisiyle ön-eğitim gördü. Seed-TTS-Eval değerlendirmesinde, dots.tts Çince, İngilizce ve Çince zor test setlerindeki kelime hata oranı (WER) sırasıyla %0,94 / %1,30 / %6,60, benzerlik skoru (SIM) ise 81,0 / 77,1 / 79,5 olarak açık kaynak SOTA seviyesine ulaştı. 24 dil için MiniMax Çokdilli benchmark testinde ortalama konuşmacı benzerliği %83,9 olarak ölçüldü. Xiaohongshu, kullanıcıların sıfır örnek ses klonlamasını çevrimiçi olarak test etmeleri için Hugging Face'de bir Gradio deneyim alanı sundu.

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.