StepAudio 2.5 الخاص بـ StepFun يتصدر معايير الذكاء الاصطناعي الصوتي في الوقت الفعلي في أبريل 2026

مختبر ذكاء اصطناعي مقره شنغهاي أحرج هدوءً بعض أكبر الأسماء في التكنولوجيا. فقد تجاوز StepAudio 2.5 Realtime من StepFun، الذي تم إصداره تقريبًا في 24 مايو، جميع المعايير الخمسة الرئيسية لذكاء الصوت في اختبارات أبريل 2026، متفوقًا على GPT Realtime 1.5 وGemini Live في العملية.

النموذج لا يفهم فقط ما تقوله، بل يفهم كيف تقوله، ويُفسّر النبرة والعاطفة ومعدل الكلام بطرق تجعل مساعدات الصوت المنافسة تبدو وكأنها تقرأ نصًا بنبرة مسطحة.

الأرقام خلف الضجيج

سجل StepAudio 2.5 النتائج الأعلى في جميع فئات المعايير التي تم اختبارها. وفي التقييم البشري، حصل على 80.41. ووصل أداء المحادثة العامة إلى 86.36. أما اختبار سيناريوهات السيارات، الذي يقيس مدى كفاءة النموذج في التعامل مع التفاعل الصوتي في سياقات القيادة، فقد بلغ 84.80.

وصل معيار الأسئلة والإجابات المنطوقة، الذي يغطي 11 مهام منفصلة، إلى 79.80. ووصل درجة فهم ما وراء اللغوي، وهو على الأرجح أبرز مقياس هنا، إلى 82.18.

للسياق، كان النموذج السابق، StepAudio 2، قد جذب الانتباه بالفعل بدرجة MMAU قدرها 77.4%. إن الانتقال إلى 2.5 Realtime يمثل قفزة ذات معنى، وليس مجرد ترقية تدريجية مُزَيَّنة بلغة تسويقية.

كيف يعمل فعليًا

الهندسة هي ما يميزها عن المنافسين. يستخدم StepAudio 2.5 Realtime تصميمًا موحدًا لإدخال الصوت وإخراجه يجمع بين ثلاث قدرات أساسية في إطار واحد: التعرف التلقائي على الكلام (ASR)، وتحويل النص إلى كلام (TTS)، ومعالجة الحوار في الوقت الحقيقي.

فكّر بهذا الشكل: تعمل معظم أنظمة الذكاء الاصطناعي الصوتي على مراحل. فهي تحوّل كلامك إلى نص، ثم تعالج النص، وتولّد ردًا نصيًا، ثم تحوله مرة أخرى إلى صوت. كل نقلة تُدخل تأخيرًا وتفقد الدقة الدقيقة. إن نهج StepFun يدمج هذه الخطوات في نظام متماسك واحد.

السر هو ما تسميه StepFun بالتعلم المعزز المخصص للشخصية من التغذية الراجعة البشرية، أو RLHF. يُدرّب RLHF القياسي النموذج على تقديم إجابات أفضل بناءً على تفضيلات البشر. أما نسخة StepFun، فهي تذهب أبعد من ذلك من خلال تخصيص حلقة التغذية الراجعة هذه للشخصيات المحددة، مما يعني أن النموذج يمكنه الحفاظ على سمات شخصية متسقة خلال محاكاة الأدوار المطولة أو سيناريوهات خدمة العملاء.

النموذج يدعم حاليًا الصينية والإنجليزية، ويتصل عبر واجهة برمجة تطبيقات WebSocket تحت سلسلة النموذج 'step-2.5-realtime'، ويمكن الوصول إليه من خلال واجهة برمجة تطبيقات منصة StepFun وواجهة تحكم مباشرة للوقت الحقيقي. تم نشر تقرير تقني يوضح البنية على arXiv تحت الرقم التعريفي 2605.23463.

لماذا يهم الفهم اللالغوي

يشير درجة 82.18 لـ StepAudio 2.5 في الفهم غير اللفظي إلى أن StepFun حققت تقدمًا حقيقيًا في هذه المشكلة. مساعد صوتي يمكنه اكتشاف الإحباط في نبرة المُتصل وتحويله إلى وكيل بشري، أو تبطيء كلامه عند اكتشاف الالتباس، يمثل منتجًا مختلفًا جوهريًا عن منتج يعالج الكلمات بدقة فقط.

يشير درجة معيار السيناريو السياراتي البالغة 84.80 إلى تطبيق آخر مربح. تحتاج مساعدات الصوت في السيارة إلى التعامل مع البيئات الضوضائية، وتفسير الأوامر بسرعة، وفهم المثالي متى يبدو السائق متوترًا مقابل مسترخيًا.