StepAudio 2.5 TTS เปิดตัวพร้อมการควบคุมอารมณ์แบบละเอียด

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
StepAudio 2.5 TTS เปิดตัวเมื่อวันที่ 16 เมษายน (UTC+8) โดยเสนอการควบคุมอารมณ์แบบละเอียดผ่านภาษาธรรมชาติ ผู้ใช้สามารถระบุโทนเสียงได้เช่น “ความเศร้าที่ควบคุมได้ ไม่มีน้ำเสียงร้องไห้ กระตุกเล็กน้อย” ระบบรองรับบริบทระดับโลก การควบคุมภายในข้อความ และการสร้างเสียงแบบ zero-shot ข่าวบนบล็อกเชนเน้นย้ำถึงความก้าวหน้าในเทคโนโลยีเสียง AI ขณะเดียวกัน Google ก็เปิดตัว Gemini 3.1 Flash TTS ซึ่งใช้ภาษาธรรมชาติเพื่อปรับแต่งการพูดอย่างแม่นยำเช่นกัน การอภิปรายด้านนโยบายคริปโตทั่วโลกอาจรวมเครื่องมือเหล่านี้เข้าไปในกรอบการกำกับดูแลที่กว้างขึ้นในเร็วๆ นี้

ข่าวจาก ME News เมื่อวันที่ 16 เมษายน (UTC+8) ตามข้อมูลจาก Beating ที่ติดตามสถานการณ์ บริษัท Jiepao Xingchen ได้เปิดตัว StepAudio 2.5 TTS อย่างเป็นทางการ ต่างจาก TTS แบบดั้งเดิมที่ต้องใช้แท็กอารมณ์ล่วงหน้า รุ่นนี้รองรับการควบคุมรายละเอียดทุกแง่มุมของเสียงผ่านคำอธิบายด้วยภาษาธรรมชาติ: แท็กสามารถแสดงเฉพาะ “ความเศร้า” ได้เท่านั้น แต่ภาษาธรรมชาติสามารถอธิบายเพิ่มเติมได้ว่า “ความเศร้าที่ควบคุมตัวเอง ไม่มีเสียงร้องไห้ และสั่นเบาๆ” โดย AI จะสร้างเสียงที่ตรงกับคำอธิบายนั้น การควบคุมแบ่งเป็นสามระดับ: การควบคุมบริบทโดยรวมกำหนดโทนอารมณ์และบรรยากาศของทั้งชุดเสียง เพื่อให้การแสดงของตัวละครในบทสนทนาหลายรอบมีความต่อเนื่อง; การควบคุมบริบทในข้อความปรับน้ำเสียง จังหวะ การหยุดพัก น้ำหนักเสียง และความรู้สึกของการหายใจในระดับประโยค แม้แต่สามารถถ่ายทอดกิจกรรมทางจิตใจและนัยแฝงของตัวละครได้; การจำลองเสียงแบบศูนย์ตัวอย่าง (Zeroshot TTS) ไม่จำเป็นต้องฝึกใหม่ เพียงใช้บันทึกเสียงอ้างอิงใดๆ ก็สามารถเลียนแบบเสียงได้ โดยสามารถปรับอารมณ์และสไตล์แยกจากกันได้ ฟีเจอร์ทั้งสามนี้ได้เปิดใช้งานเต็มรูปแบบบนแพลตฟอร์มเปิดของ Jiepao Xingchen และ Step Plan ในวันเดียวกัน Google ก็เปิดตัว Gemini 3.1 Flash TTS ซึ่งเช่นเดียวกันใช้คำสั่งภาษาธรรมชาติแทนแท็ก SSML เพื่อการควบคุมที่ละเอียดอ่อน และได้รับตำแหน่งอันดับหนึ่งในการประเมินจากบุคคลภายนอก การเปิดตัวในวันเดียวกันด้วยแนวคิดเดียวกันของทั้งสองบริษัทบ่งชี้ว่ารูปแบบการควบคุม TTS กำลังเปลี่ยนจาก “เลือกแท็ก” เป็น “พูดความต้องการ” สำหรับผู้สร้างเนื้อหาเสียงและผู้กำกับเสียงพากย์ ก่อนหน้านี้การปรับอารมณ์ต้องใช้การบันทึกซ้ำหลายครั้ง แต่ตอนนี้เพียงอธิบายด้วยประโยคเดียว ก็สามารถกำหนดระดับความละเอียดของเสียงได้แล้ว (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา