StepAudio 2.5 TTS، فائن گرینڈڈ ایموشنل کنٹرول کے ساتھ لانچ ہو گیا

iconKuCoinFlash
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
StepAudio 2.5 TTS کو 16 اپریل (UTC+8) پر لانچ کیا گیا، جو قدرتی زبان کے ذریعے باریک احساسات کے کنٹرول کی سہولت فراہم کرتا ہے۔ صارفین اب "پابند غم، روئنے کا لہجہ نہیں، ہلکا کانپنا" جیسے لہجے متعین کر سکتے ہیں۔ یہ سسٹم عالمی سیاق، متن کے اندر کنٹرول، اور صفر شاٹ آواز کلوننگ کی حمایت کرتا ہے۔ آن چین خبروں میں AI آڈیو ٹیکنالوجی میں یہ ترقی کو اہمیت دی گئی ہے۔ اس کے علاوہ، گوگل نے Gemini 3.1 Flash TTS جاری کیا، جو بھی درست بولنے کے لیے قدرتی زبان استعمال کرتا ہے۔ عالمی کرپٹو پالیسی مباحثے جلد ہی ایسے ٹولز کو وسیع تنظیمی فریم ورک کا حصہ بنانے کی طرف جائیں گے۔

ME نیوز کے مطابق، 16 اپریل (UTC+8) کو، Beating کی نگرانی کے مطابق، جیئے چینگ نے StepAudio 2.5 TTS کا اعلان کر دیا ہے۔ روایتی TTS کے برعکس جو پیش گئے جذباتی لیبلز کی ضرورت رکھتے ہیں، اس نسخہ میں صرف فطری زبان کے ذریعے آواز کے ہر پہلو کو کنٹرول کیا جا سکتا ہے: لیبل صرف "اداسی" کو ظاہر کر سکتے ہیں، جبکہ فطری زبان مزید تفصیل دے سکتی ہے جیسے "پابند اداسی، روؤں کے بغیر، ہلکی سی لرزش" — AI اس کے مطابق متعلقہ آواز تخلیق کرتا ہے۔ کنٹرول تین سطحوں پر ہے۔ مجموعی سیاق و سباق کنٹرول پوری آواز کے جذباتی ڈھانچے اور منظر کی فضا طے کرتا ہے تاکہ متعدد مکالموں میں کرداروں کا اظہار مسلسل رہے؛ متن کے سیاق و سباق کنٹرول جملوں کے سطح پر لہجہ، رفتار، توقف، زور اور سانس کا احساس تنظیم کرتا ہے، اور یہاں تک کہ کردار کے ذہنی حالات اور خفیہ پیغامات بھی درج کر سکتا ہے؛ صفر نمونہ آواز نقل (Zeroshot TTS) دوبارہ تربیت کی ضرورت نہیں رکھتا، بلکہ کسی بھی حوالہ ریکارڈنگ سے آواز کو نقل کر سکتا ہے، جبکہ جذبات اور انداز الگ الگ طور پر تنظیم کئے جا سکتے ہیں۔ ان تینوں خصوصیات پورے طور پر جیئے چینگ کے اوپن پلیٹ فارم اور Step Plan پر لائیو ہو چکی ہیں۔ اسی دن، گوگل نے Gemini 3.1 Flash TTS بھی جاری کیا، جو SSML لیبلز کے بجائے فطری زبان کے حکمات کے ذریعے بھی تفصیلی کنٹرول فراہم کرتا ہے اور تھرڈ پارٹی جائزہ میں سب سے اوپر پہنچ گیا۔ دونوں کمپنیاں اسی دن اسی خیال سے اپنے نئے ورژن جاری کرنے والی ہیں، جس سے ظاہر ہوتا ہے کہ TTS کا کنٹرول ماڈل "لیبل منتخب کرنے" سے "ضرورت بیان کرنے" کی طرف مجموعی طور پر منتقل ہو رہا ہے۔ آواز والے مواد تخلیق کرنے والوں اور آواز فراہم کرنے والوں کے لئے، پہلے جذبات تبدیل کرنے کے لئے بار بار ریکارڈنگ ضروری تھی، لیکن اب صرف ایک جملہ بیان کرنے سے آواز کے نرم تفصیلات طے ہو جاتے ہیں۔ (ذرائع: BlockBeats)

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔