StepAudio 2.5 TTS، فائن گرینڈڈ ایموشنل کنٹرول کے ساتھ لانچ ہو گیا

ME نیوز کے مطابق، 16 اپریل (UTC+8) کو، Beating کی نگرانی کے مطابق، جیئے چینگ نے StepAudio 2.5 TTS کا اعلان کر دیا ہے۔ روایتی TTS کے برعکس جو پیش گئے جذباتی لیبلز کی ضرورت رکھتے ہیں، اس نسخہ میں صرف فطری زبان کے ذریعے آواز کے ہر پہلو کو کنٹرول کیا جا سکتا ہے: لیبل صرف "اداسی" کو ظاہر کر سکتے ہیں، جبکہ فطری زبان مزید تفصیل دے سکتی ہے جیسے "پابند اداسی، روؤں کے بغیر، ہلکی سی لرزش" — AI اس کے مطابق متعلقہ آواز تخلیق کرتا ہے۔ کنٹرول تین سطحوں پر ہے۔ مجموعی سیاق و سباق کنٹرول پوری آواز کے جذباتی ڈھانچے اور منظر کی فضا طے کرتا ہے تاکہ متعدد مکالموں میں کرداروں کا اظہار مسلسل رہے؛ متن کے سیاق و سباق کنٹرول جملوں کے سطح پر لہجہ، رفتار، توقف، زور اور سانس کا احساس تنظیم کرتا ہے، اور یہاں تک کہ کردار کے ذہنی حالات اور خفیہ پیغامات بھی درج کر سکتا ہے؛ صفر نمونہ آواز نقل (Zeroshot TTS) دوبارہ تربیت کی ضرورت نہیں رکھتا، بلکہ کسی بھی حوالہ ریکارڈنگ سے آواز کو نقل کر سکتا ہے، جبکہ جذبات اور انداز الگ الگ طور پر تنظیم کئے جا سکتے ہیں۔ ان تینوں خصوصیات پورے طور پر جیئے چینگ کے اوپن پلیٹ فارم اور Step Plan پر لائیو ہو چکی ہیں۔ اسی دن، گوگل نے Gemini 3.1 Flash TTS بھی جاری کیا، جو SSML لیبلز کے بجائے فطری زبان کے حکمات کے ذریعے بھی تفصیلی کنٹرول فراہم کرتا ہے اور تھرڈ پارٹی جائزہ میں سب سے اوپر پہنچ گیا۔ دونوں کمپنیاں اسی دن اسی خیال سے اپنے نئے ورژن جاری کرنے والی ہیں، جس سے ظاہر ہوتا ہے کہ TTS کا کنٹرول ماڈل "لیبل منتخب کرنے" سے "ضرورت بیان کرنے" کی طرف مجموعی طور پر منتقل ہو رہا ہے۔ آواز والے مواد تخلیق کرنے والوں اور آواز فراہم کرنے والوں کے لئے، پہلے جذبات تبدیل کرنے کے لئے بار بار ریکارڈنگ ضروری تھی، لیکن اب صرف ایک جملہ بیان کرنے سے آواز کے نرم تفصیلات طے ہو جاتے ہیں۔ (ذرائع: BlockBeats)