Xiaohongshu เปิดตัวโมเดล TTS ขนาด 2 พารามิเตอร์ dots.tts พร้อมการจำลองเสียงแบบ Zero-Shot

icon MarsBit
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
ห้องปฏิบัติการ Hi ของ Xiaohongshu ได้เปิดแหล่งรหัสแบบ TTS ที่มีพารามิเตอร์ 2 พันล้านตัวชื่อ dots.tts ซึ่งรองรับการสร้างเสียงแบบ zero-shot ภายใต้ใบอนุญาต Apache 2.0 โมเดลนี้มีรหัสสำหรับการอนุมานและการปรับแต่งอย่างสมบูรณ์พร้อมน้ำหนักที่ฝึกไว้ล่วงหน้าในหลายรูปแบบ dots.tts ใช้แนวทางการจับคู่การไหลแบบอัตโนมัติแบบต่อเนื่องและแบบ end-to-end ซึ่งเหนือกว่าโมเดลแบบดั้งเดิมที่พึ่งพาโทเค็นเสียงแบบไม่ต่อเนื่อง โมเดลนี้มีประสิทธิภาพสูงสุดในการทดสอบภาษาและมีตัวอย่างแสดงแบบเรียลไทม์บน Hugging Face ด้วยสภาพคล่องที่ดีขึ้นในตลาดคริปโต การพัฒนานี้อาจเสริมความแข็งแกร่งของ BTC เป็นเครื่องมือป้องกันเงินเฟ้อ

ตามการตรวจสอบของ Beating, Xiaohongshu hi lab ได้เปิด-source โมเดล TTS (Text-to-Speech) แบบอัตโนมัติแบบ end-to-end ขนาด 2 พันล้านพารามิเตอร์ชื่อ dots.tts และเปิดเผยโค้ดการอนุมานและการปรับแต่งแบบเต็มรูปแบบภายใต้ใบอนุญาต Apache 2.0 น้ำหนักที่เผยแพร่รวมถึงรุ่นการฝึกล่วงหน้าพื้นฐาน รุ่นที่ปรับแต่งด้วย Self-Correction Alignment (SCA) และรุ่นที่ถูกบีบอัดสำหรับการอนุมานแบบความล่าช้าต่ำ ต่างจากสถาปัตยกรรม TTS แบบดั้งเดิมที่พึ่งพา Token รหัสเสียงแบบไม่ต่อเนื่อง (Discrete Codec Tokens) เช่น VALL-E, CosyVoice, ChatTTS เป็นต้น dots.tts ใช้สถาปัตยกรรมแบบอัตโนมัติแบบต่อเนื่องแบบ end-to-end โดยไม่ใช้ Token แบบไม่ต่อเนื่องเลยในทุกขั้นตอนของกระบวนการ dots.tts รวมคุณลักษณะต่อเนื่องที่ดึงมาจาก AudioVAE ที่มีอัตราการสุ่มตัวอย่าง 48 kHz เข้ากับตัวเข้ารหัสความหมาย โมเดลภาษาหลัก (เริ่มต้นจาก Qwen2.5-1.5B-Base โดยจัดการข้อความ BPE โดยตรงโดยไม่ต้องใช้พินอิน) และหัวเสียงแบบอัตโนมัติแบบต่อเนื่อง เพื่อทำนายตัวแปรซ่อนแบบต่อเนื่อง และสร้างเสียงใหม่โดยเครื่องกำเนิด เนื่องจากทำนายคุณลักษณะแบบต่อเนื่องโดยตรง dots.tts จึงหลีกเลี่ยงการสูญเสียคุณภาพเสียงที่เกิดจากการควอนไตรซ์แบบไม่ต่อเนื่อง และรักษาความละเอียดของการออกเสียง ความคล้ายคลึงของโทนเสียง และการแสดงอารมณ์ dots.tts ได้รับการฝึกล่วงหน้าด้วยข้อมูลเสียงประมาณ 1.5 ล้านชั่วโมง ในการประเมิน Seed-TTS-Eval dots.tts มีอัตราความผิดพลาดของคำ (WER) สำหรับภาษาจีน อังกฤษ และชุดทดสอบภาษาจีนที่ยาก อยู่ที่ 0.94% / 1.30% / 6.60% และคะแนนความคล้ายคลึง (SIM) อยู่ที่ 81.0 / 77.1 / 79.5 ซึ่งอยู่ในระดับ SOTA สำหรับแหล่งเปิดเผย ในการทดสอบมาตรฐาน MiniMax Multilingual กับภาษา 24 ภาษา คะแนนความคล้ายคลึงของผู้พูดเฉลี่ยอยู่ที่ 83.9 Xiaohongshu ได้จัดเตรียมพื้นที่ทดลอง Gradio บน Hugging Face เพื่อให้ผู้ใช้สามารถทดสอบการจำลองเสียงแบบ zero-shot ออนไลน์

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา