StepAudio 2.5 الخاص بـ StepFun يتصدر معايير الذكاء الاصطناعي الصوتي في الوقت الفعلي في أبريل 2026

iconCryptoBriefing
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
تم إطلاق StepAudio 2.5 Realtime من StepFun حوالي 24 مايو 2026، واحتل المرتبة الأولى في مقاييس الذكاء الاصطناعي الصوتي في أبريل 2026، متفوقًا على GPT Realtime 1.5 وGemini Live. وحصل على درجة 80.41 في التقييم البشري، و86.36 في الحوار العام، و84.80 في سيناريوهات السيارات. كما حقق النموذج درجة 79.80 في أسئلة وأجوبة الكلام، و82.18 في فهم العناصر ما وراء اللغوية. يستخدم StepAudio 2.5 Realtime تصميمًا موحدًا للصوت المدخل والصوت المخرج، ويدعم الصينية والإنجليزية عبر واجهة برمجة تطبيقات WebSocket. مع تطور سوق التشفير، قد تؤثر مثل هذه التطورات في الذكاء الاصطناعي على مؤشر الخوف والطمع.

مختبر ذكاء اصطناعي مقره شنغهاي أحرج هدوءً بعض أكبر الأسماء في التكنولوجيا. فقد تجاوز StepAudio 2.5 Realtime من StepFun، الذي تم إصداره تقريبًا في 24 مايو، جميع المعايير الخمسة الرئيسية لذكاء الصوت في اختبارات أبريل 2026، متفوقًا على GPT Realtime 1.5 وGemini Live في العملية.

النموذج لا يفهم فقط ما تقوله، بل يفهم كيف تقوله، ويُفسّر النبرة والعاطفة ومعدل الكلام بطرق تجعل مساعدات الصوت المنافسة تبدو وكأنها تقرأ نصًا بنبرة مسطحة.

الأرقام خلف الضجيج

سجل StepAudio 2.5 النتائج الأعلى في جميع فئات المعايير التي تم اختبارها. وفي التقييم البشري، حصل على 80.41. ووصل أداء المحادثة العامة إلى 86.36. أما اختبار سيناريوهات السيارات، الذي يقيس مدى كفاءة النموذج في التعامل مع التفاعل الصوتي في سياقات القيادة، فقد بلغ 84.80.

وصل معيار الأسئلة والإجابات المنطوقة، الذي يغطي 11 مهام منفصلة، إلى 79.80. ووصل درجة فهم ما وراء اللغوي، وهو على الأرجح أبرز مقياس هنا، إلى 82.18.

إعلان

للسياق، كان النموذج السابق، StepAudio 2، قد جذب الانتباه بالفعل بدرجة MMAU قدرها 77.4%. إن الانتقال إلى 2.5 Realtime يمثل قفزة ذات معنى، وليس مجرد ترقية تدريجية مُزَيَّنة بلغة تسويقية.

كيف يعمل فعليًا

الهندسة هي ما يميزها عن المنافسين. يستخدم StepAudio 2.5 Realtime تصميمًا موحدًا لإدخال الصوت وإخراجه يجمع بين ثلاث قدرات أساسية في إطار واحد: التعرف التلقائي على الكلام (ASR)، وتحويل النص إلى كلام (TTS)، ومعالجة الحوار في الوقت الحقيقي.

فكّر بهذا الشكل: تعمل معظم أنظمة الذكاء الاصطناعي الصوتي على مراحل. فهي تحوّل كلامك إلى نص، ثم تعالج النص، وتولّد ردًا نصيًا، ثم تحوله مرة أخرى إلى صوت. كل نقلة تُدخل تأخيرًا وتفقد الدقة الدقيقة. إن نهج StepFun يدمج هذه الخطوات في نظام متماسك واحد.

السر هو ما تسميه StepFun بالتعلم المعزز المخصص للشخصية من التغذية الراجعة البشرية، أو RLHF. يُدرّب RLHF القياسي النموذج على تقديم إجابات أفضل بناءً على تفضيلات البشر. أما نسخة StepFun، فهي تذهب أبعد من ذلك من خلال تخصيص حلقة التغذية الراجعة هذه للشخصيات المحددة، مما يعني أن النموذج يمكنه الحفاظ على سمات شخصية متسقة خلال محاكاة الأدوار المطولة أو سيناريوهات خدمة العملاء.

النموذج يدعم حاليًا الصينية والإنجليزية، ويتصل عبر واجهة برمجة تطبيقات WebSocket تحت سلسلة النموذج 'step-2.5-realtime'، ويمكن الوصول إليه من خلال واجهة برمجة تطبيقات منصة StepFun وواجهة تحكم مباشرة للوقت الحقيقي. تم نشر تقرير تقني يوضح البنية على arXiv تحت الرقم التعريفي 2605.23463.

لماذا يهم الفهم اللالغوي

يشير درجة 82.18 لـ StepAudio 2.5 في الفهم غير اللفظي إلى أن StepFun حققت تقدمًا حقيقيًا في هذه المشكلة. مساعد صوتي يمكنه اكتشاف الإحباط في نبرة المُتصل وتحويله إلى وكيل بشري، أو تبطيء كلامه عند اكتشاف الالتباس، يمثل منتجًا مختلفًا جوهريًا عن منتج يعالج الكلمات بدقة فقط.

يشير درجة معيار السيناريو السياراتي البالغة 84.80 إلى تطبيق آخر مربح. تحتاج مساعدات الصوت في السيارة إلى التعامل مع البيئات الضوضائية، وتفسير الأوامر بسرعة، وفهم المثالي متى يبدو السائق متوترًا مقابل مسترخيًا.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.