اپریل 2026 میں StepFun کا StepAudio 2.5 ریل ٹائم وائس AI بینچ مارکس پر ٹاپ کرتا ہے

iconCryptoBriefing
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
اسٹیپ فن کا اسٹیپ آڈیو 2.5 ریل ٹائم، جو مئی 24، 2026 کے تقریباً لانچ ہوا، اپریل 2026 میں آواز AI بینچ مارکس میں سب سے اوپر رہا، جس نے GPT ریل ٹائم 1.5 اور جمنی لائیو کو پیچھے چھوڑ دیا۔ اس نے انسانی تجزیہ میں 80.41، عام مکالمہ میں 86.36، اور خودکار ڈرائیونگ کے مناظر میں 84.80 سکور حاصل کیا۔ مدل نے بولتے ہوئے سوال و جواب میں 79.80 اور پیرالنگوئسٹک سمجھ میں 82.18 بھی حاصل کیا۔ اسٹیپ آڈیو 2.5 ریل ٹائم ایک یکجا آڈیو-این، آڈیو-آؤٹ ڈیزائن استعمال کرتا ہے اور چائنیز اور انگریزی کو ویب سوکٹ API کے ذریعے سپورٹ کرتا ہے۔ جبکہ کرپٹو مارکیٹ ترقی کر رہا ہے، ایسے AI ترقیات فEAR اور گریڈ انڈیکس کو متاثر کر سکتی ہیں۔

ایک شنگھائی واقع AI لیب نے صرف ایک ہی بار میں ٹیک کے کچھ سب سے بڑے ناموں کو ناکام بنادیا۔ StepFun کا StepAudio 2.5 Realtime، جو تقریباً 24 مئی کو جاری ہوا، اپریل 2026 کے ٹیسٹنگ سے لے کر پانچوں بڑے آواز AI بینچ مارکس پر قابض ہوگیا، جس میں GPT Realtime 1.5 اور Gemini Live دونوں کو شکست دی گئی۔

یہ ماڈل صرف آپ کی بات سمجھتا ہے، بلکہ یہ یہ بھی سمجھتا ہے کہ آپ کیسے بول رہے ہیں، جس میں جذبات، لہجہ اور بولنے کی رفتار کو ایسے سمجھا جاتا ہے جس سے زیادہ تر مقابلہ کرنے والے آواز کے اسسٹنٹس ایک منوٹون میں اسکرپٹ پڑھتے ہوئے لگتے ہیں۔

شور کے پیچھے کے اعداد

StepAudio 2.5 Realtime نے ٹیسٹ کیے گئے تمام بینچ مارک کیٹیگریز میں سب سے اعلیٰ اسکور حاصل کیا۔ انسانی جائزے میں اس کا اسکور 80.41 تھا۔ جنرل ڈائیلاگ پرفارمنس پر 86.36 تھا۔ آٹوموٹیو سیناریو ٹیسٹنگ، جو ماڈل کی ڈرائیونگ کے ماحول میں آواز کے انٹرایکشن کو کیسے سنبھالنے کی صلاحیت کو ناپتی ہے، پر 84.80 آیا۔

بولی گئی سوال وجواب کی بنچ مارک، جس میں 11 الگ الگ کام شامل ہیں، 79.80 پر آیا۔ اور پیرالنگوئسٹک سمجھ کا اسکور، جو شاید یہاں سب سے دلچسپ میٹرک ہے، 82.18 تک پہنچ گیا۔

اعلان

حوالہ کے طور پر، ماڈل کا سابقہ، اسٹیپآڈیو 2، نے MMAU بینچ مارک اسکور 77.4% کے ساتھ پہلے ہی توجہ حاصل کر لی تھی۔ 2.5 ریل ٹائم تک کا اضافہ صرف مارکیٹنگ کے الفاظ میں سجے ہوئے ایک تدریجی ورژن اپ گریڈ نہیں بلکہ ایک معنی خیز قدم ہے۔

یہ کیسے کام کرتا ہے

یہ آرکیٹیکچر اسے دوسرے سے الگ کرتا ہے۔ StepAudio 2.5 Realtime ایک یکجا آڈیو-این، آڈیو-آؤٹ ڈیزائن استعمال کرتا ہے جو تین بنیادی صلاحیتیں — خودکار بولی ہوئی تحویل (ASR)، متن سے آڈیو (TTS)، اور ریل ٹائم مکالمہ پروسیسنگ — کو ایک ہی فریم ورک میں ملا دیتا ہے۔

اسے اس طرح سوچیں: زیادہ تر آواز کے AI سسٹم مراحل میں کام کرتے ہیں۔ وہ آپ کی بات کو متن میں تبدیل کرتے ہیں، متن کو پروسیس کرتے ہیں، متن میں جواب تیار کرتے ہیں، اور پھر اسے دوبارہ آڈیو میں تبدیل کرتے ہیں۔ ہر ہینڈآف پر لیٹنسی داخل ہوتی ہے اور نیوئنس کھو جاتا ہے۔ StepFun کا طریقہ ان مراحل کو ایک متحدہ سسٹم میں ضم کر دیتا ہے۔

راز کا مصالحہ وہ ہے جسے StepFun "شخصیت-خصوصی تقویت سیکھنا انسانی فیڈبیک سے" یا RLHF کہتا ہے۔ معیاری RLHF ایک ماڈل کو انسانی ترجیحات کے مطابق بہتر جوابات دینا سکھاتا ہے۔ StepFun کا ورژن اس فیڈبیک لوپ کو مخصوص شخصیتوں کے لیے ڈھال کر مزید آگے بڑھتا ہے، جس کا مطلب ہے کہ ماڈل لمبے رول پلے یا صارف خدمت کے مناظر کے دوران مسلسل کردار کے خصوصیات برقرار رکھ سکتا ہے۔

ماڈل فی الحال چینی اور انگریزی دونوں کو سپورٹ کرتا ہے، ماڈل سٹرنگ 'step-2.5-realtime' کے ذریعے ویب سوکیٹ API کے ذریعے کنکٹ ہوتا ہے، اور StepFun کی پلیٹ فارم API اور ایک مخصوص ریل ٹائم کنسول کے ذریعے دستیاب ہے۔ آرکیٹیکچر کی تفصیل والی ٹیکنیکل رپورٹ arXiv پر شناخت 2605.23463 کے تحت شائع کی گئی ہے۔

پیرالنگوئسٹک سمجھ کیوں اہم ہے

پیرالنگوئسٹک سمجھ میں StepAudio 2.5 کا 82.18 کا اسکور یہ ظاہر کرتا ہے کہ StepFun نے اس مسئلے پر اصل پیش رفت حاصل کی ہے۔ ایک آواز کی مدد کرنے والی ایسی اسسٹنٹ جو کالر کے انداز میں ناراضگی کو پکڑ سکے اور انسانی ایجینٹ تک منتقل ہو جائے، یا جب وہ الجھن محسوس کرے تو اپنی بولنے کی رفتار کم کر دے، وہ ایک ایسی مکمل طور پر مختلف مصنوعات ہے جو صرف الفاظ کو درست طریقے سے پروسیس کرتی ہے۔

84.80 کا آٹوموٹیو سیناریو بینچ مارک اسکور ایک اور منافع بخش اطلاق کی طرف اشارہ کرتا ہے۔ کار میں آواز کے اسسٹنٹس کو شور والے ماحول سے نمٹنا ہوگا، حکمات کو جلدی سے سمجھنا ہوگا، اور بہترین صورت میں ڈرائیور کی تنشہ یا آرام دہ آواز کو سمجھنا ہوگا۔

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔