اپریل 2026 میں StepFun کا StepAudio 2.5 ریل ٹائم وائس AI بینچ مارکس پر ٹاپ کرتا ہے

ایک شنگھائی واقع AI لیب نے صرف ایک ہی بار میں ٹیک کے کچھ سب سے بڑے ناموں کو ناکام بنادیا۔ StepFun کا StepAudio 2.5 Realtime، جو تقریباً 24 مئی کو جاری ہوا، اپریل 2026 کے ٹیسٹنگ سے لے کر پانچوں بڑے آواز AI بینچ مارکس پر قابض ہوگیا، جس میں GPT Realtime 1.5 اور Gemini Live دونوں کو شکست دی گئی۔

یہ ماڈل صرف آپ کی بات سمجھتا ہے، بلکہ یہ یہ بھی سمجھتا ہے کہ آپ کیسے بول رہے ہیں، جس میں جذبات، لہجہ اور بولنے کی رفتار کو ایسے سمجھا جاتا ہے جس سے زیادہ تر مقابلہ کرنے والے آواز کے اسسٹنٹس ایک منوٹون میں اسکرپٹ پڑھتے ہوئے لگتے ہیں۔

شور کے پیچھے کے اعداد

StepAudio 2.5 Realtime نے ٹیسٹ کیے گئے تمام بینچ مارک کیٹیگریز میں سب سے اعلیٰ اسکور حاصل کیا۔ انسانی جائزے میں اس کا اسکور 80.41 تھا۔ جنرل ڈائیلاگ پرفارمنس پر 86.36 تھا۔ آٹوموٹیو سیناریو ٹیسٹنگ، جو ماڈل کی ڈرائیونگ کے ماحول میں آواز کے انٹرایکشن کو کیسے سنبھالنے کی صلاحیت کو ناپتی ہے، پر 84.80 آیا۔

بولی گئی سوال وجواب کی بنچ مارک، جس میں 11 الگ الگ کام شامل ہیں، 79.80 پر آیا۔ اور پیرالنگوئسٹک سمجھ کا اسکور، جو شاید یہاں سب سے دلچسپ میٹرک ہے، 82.18 تک پہنچ گیا۔

اعلان

حوالہ کے طور پر، ماڈل کا سابقہ، اسٹیپآڈیو 2، نے MMAU بینچ مارک اسکور 77.4% کے ساتھ پہلے ہی توجہ حاصل کر لی تھی۔ 2.5 ریل ٹائم تک کا اضافہ صرف مارکیٹنگ کے الفاظ میں سجے ہوئے ایک تدریجی ورژن اپ گریڈ نہیں بلکہ ایک معنی خیز قدم ہے۔

یہ کیسے کام کرتا ہے

یہ آرکیٹیکچر اسے دوسرے سے الگ کرتا ہے۔ StepAudio 2.5 Realtime ایک یکجا آڈیو-این، آڈیو-آؤٹ ڈیزائن استعمال کرتا ہے جو تین بنیادی صلاحیتیں — خودکار بولی ہوئی تحویل (ASR)، متن سے آڈیو (TTS)، اور ریل ٹائم مکالمہ پروسیسنگ — کو ایک ہی فریم ورک میں ملا دیتا ہے۔

اسے اس طرح سوچیں: زیادہ تر آواز کے AI سسٹم مراحل میں کام کرتے ہیں۔ وہ آپ کی بات کو متن میں تبدیل کرتے ہیں، متن کو پروسیس کرتے ہیں، متن میں جواب تیار کرتے ہیں، اور پھر اسے دوبارہ آڈیو میں تبدیل کرتے ہیں۔ ہر ہینڈآف پر لیٹنسی داخل ہوتی ہے اور نیوئنس کھو جاتا ہے۔ StepFun کا طریقہ ان مراحل کو ایک متحدہ سسٹم میں ضم کر دیتا ہے۔

راز کا مصالحہ وہ ہے جسے StepFun "شخصیت-خصوصی تقویت سیکھنا انسانی فیڈبیک سے" یا RLHF کہتا ہے۔ معیاری RLHF ایک ماڈل کو انسانی ترجیحات کے مطابق بہتر جوابات دینا سکھاتا ہے۔ StepFun کا ورژن اس فیڈبیک لوپ کو مخصوص شخصیتوں کے لیے ڈھال کر مزید آگے بڑھتا ہے، جس کا مطلب ہے کہ ماڈل لمبے رول پلے یا صارف خدمت کے مناظر کے دوران مسلسل کردار کے خصوصیات برقرار رکھ سکتا ہے۔

ماڈل فی الحال چینی اور انگریزی دونوں کو سپورٹ کرتا ہے، ماڈل سٹرنگ 'step-2.5-realtime' کے ذریعے ویب سوکیٹ API کے ذریعے کنکٹ ہوتا ہے، اور StepFun کی پلیٹ فارم API اور ایک مخصوص ریل ٹائم کنسول کے ذریعے دستیاب ہے۔ آرکیٹیکچر کی تفصیل والی ٹیکنیکل رپورٹ arXiv پر شناخت 2605.23463 کے تحت شائع کی گئی ہے۔

پیرالنگوئسٹک سمجھ کیوں اہم ہے

پیرالنگوئسٹک سمجھ میں StepAudio 2.5 کا 82.18 کا اسکور یہ ظاہر کرتا ہے کہ StepFun نے اس مسئلے پر اصل پیش رفت حاصل کی ہے۔ ایک آواز کی مدد کرنے والی ایسی اسسٹنٹ جو کالر کے انداز میں ناراضگی کو پکڑ سکے اور انسانی ایجینٹ تک منتقل ہو جائے، یا جب وہ الجھن محسوس کرے تو اپنی بولنے کی رفتار کم کر دے، وہ ایک ایسی مکمل طور پر مختلف مصنوعات ہے جو صرف الفاظ کو درست طریقے سے پروسیس کرتی ہے۔

84.80 کا آٹوموٹیو سیناریو بینچ مارک اسکور ایک اور منافع بخش اطلاق کی طرف اشارہ کرتا ہے۔ کار میں آواز کے اسسٹنٹس کو شور والے ماحول سے نمٹنا ہوگا، حکمات کو جلدی سے سمجھنا ہوگا، اور بہترین صورت میں ڈرائیور کی تنشہ یا آرام دہ آواز کو سمجھنا ہوگا۔