StepAudio 2.5 TTS เปิดตัวพร้อมการควบคุมอารมณ์แบบละเอียด

ข่าวจาก ME News เมื่อวันที่ 16 เมษายน (UTC+8) ตามข้อมูลจาก Beating ที่ติดตามสถานการณ์ บริษัท Jiepao Xingchen ได้เปิดตัว StepAudio 2.5 TTS อย่างเป็นทางการ ต่างจาก TTS แบบดั้งเดิมที่ต้องใช้แท็กอารมณ์ล่วงหน้า รุ่นนี้รองรับการควบคุมรายละเอียดทุกแง่มุมของเสียงผ่านคำอธิบายด้วยภาษาธรรมชาติ: แท็กสามารถแสดงเฉพาะ “ความเศร้า” ได้เท่านั้น แต่ภาษาธรรมชาติสามารถอธิบายเพิ่มเติมได้ว่า “ความเศร้าที่ควบคุมตัวเอง ไม่มีเสียงร้องไห้ และสั่นเบาๆ” โดย AI จะสร้างเสียงที่ตรงกับคำอธิบายนั้น การควบคุมแบ่งเป็นสามระดับ: การควบคุมบริบทโดยรวมกำหนดโทนอารมณ์และบรรยากาศของทั้งชุดเสียง เพื่อให้การแสดงของตัวละครในบทสนทนาหลายรอบมีความต่อเนื่อง; การควบคุมบริบทในข้อความปรับน้ำเสียง จังหวะ การหยุดพัก น้ำหนักเสียง และความรู้สึกของการหายใจในระดับประโยค แม้แต่สามารถถ่ายทอดกิจกรรมทางจิตใจและนัยแฝงของตัวละครได้; การจำลองเสียงแบบศูนย์ตัวอย่าง (Zeroshot TTS) ไม่จำเป็นต้องฝึกใหม่ เพียงใช้บันทึกเสียงอ้างอิงใดๆ ก็สามารถเลียนแบบเสียงได้ โดยสามารถปรับอารมณ์และสไตล์แยกจากกันได้ ฟีเจอร์ทั้งสามนี้ได้เปิดใช้งานเต็มรูปแบบบนแพลตฟอร์มเปิดของ Jiepao Xingchen และ Step Plan ในวันเดียวกัน Google ก็เปิดตัว Gemini 3.1 Flash TTS ซึ่งเช่นเดียวกันใช้คำสั่งภาษาธรรมชาติแทนแท็ก SSML เพื่อการควบคุมที่ละเอียดอ่อน และได้รับตำแหน่งอันดับหนึ่งในการประเมินจากบุคคลภายนอก การเปิดตัวในวันเดียวกันด้วยแนวคิดเดียวกันของทั้งสองบริษัทบ่งชี้ว่ารูปแบบการควบคุม TTS กำลังเปลี่ยนจาก “เลือกแท็ก” เป็น “พูดความต้องการ” สำหรับผู้สร้างเนื้อหาเสียงและผู้กำกับเสียงพากย์ ก่อนหน้านี้การปรับอารมณ์ต้องใช้การบันทึกซ้ำหลายครั้ง แต่ตอนนี้เพียงอธิบายด้วยประโยคเดียว ก็สามารถกำหนดระดับความละเอียดของเสียงได้แล้ว (ที่มา: BlockBeats)