एक शंघाई-आधारित एआई लैब ने तकनीक के कुछ सबसे बड़े नामों को चुपचाप शर्मसार कर दिया। स्टेपफन का स्टेपऑडियो 2.5 रियलटाइम, जिसका लॉन्च लगभग 24 मई को हुआ, अप्रैल 2026 के परीक्षण से सभी पांच प्रमुख आवाज एआई बेंचमार्क्स पर कब्जा कर लिया, जिसमें GPT रियलटाइम 1.5 और जेमिनी लाइव को पीछे छोड़ दिया।
मॉडल केवल आपके द्वारा कहे गए शब्दों को ही समझता नहीं है। यह यह भी समझता है कि आप कैसे कह रहे हैं, जिसमें टोन, भावना और बोलने की गति को इस तरह से व्याख्या किया जाता है कि अधिकांश प्रतिस्पर्धी आवाज़ सहायक ऐसे लगते हैं जैसे वे एक समतल स्वर में पटकथा पढ़ रहे हों।
शोर के पीछे के अंक
StepAudio 2.5 Realtime ने परीक्षण किए गए हर बेंचमार्क श्रेणी में शीर्ष स्कोर प्राप्त किया। मानव मूल्यांकन में, इसने 80.41 स्कोर प्राप्त किया। सामान्य संवाद प्रदर्शन 86.36 पर पहुंचा। ऑटोमोटिव परिदृश्य परीक्षण, जो मॉडल की ड्राइविंग संदर्भ में आवाज़ अंतरक्रिया को संभालने की क्षमता को मापता है, 84.80 पर रहा।
11 अलग-अलग कार्यों पर आधारित बोली गई प्रश्न-उत्तर बेंचमार्क 79.80 पर आई। और पैरालिंगुइस्टिक समझ का स्कोर, जो यहाँ संभवतः सबसे दिलचस्प मीट्रिक है, 82.18 तक पहुँचा।
संदर्भ के लिए, मॉडल का पूर्ववर्ती, StepAudio 2, ने पहले ही MMAU बेंचमार्क स्कोर 77.4% के साथ ध्यान आकर्षित किया था। 2.5 Realtime तक की छलांग एक बार फिर मार्केटिंग के लिए सजाए गए छोटे संस्करण अपग्रेड की बजाय एक महत्वपूर्ण कूद है।
यह वास्तव में कैसे काम करता है
यह आर्किटेक्चर इसे अन्य से अलग करता है। StepAudio 2.5 Realtime एक एकीकृत ऑडियो-इन, ऑडियो-आउट डिज़ाइन का उपयोग करता है जो तीन मुख्य क्षमताओं को एक ही फ्रेमवर्क में जोड़ता है: ऑटोमैटिक स्पीच रिकग्निशन (ASR), टेक्स्ट-टू-स्पीच (TTS), और रियल-टाइम डायलॉग प्रोसेसिंग।
इसे इस तरह सोचिए: अधिकांश आवाज़ AI प्रणालियाँ चरणों में काम करती हैं। वे आपकी बात को पाठ में ट्रांसक्राइब करती हैं, पाठ को प्रोसेस करती हैं, पाठ में प्रतिक्रिया उत्पन्न करती हैं, और फिर उसे फिर से ऑडियो में रूपांतर करती हैं। प्रत्येक हैंडऑफ़ पर लेटेंसी आती है और सूक्ष्मता खो जाती है। स्टेपफन का दृष्टिकोण इन चरणों को एक समन्वयित प्रणाली में समेट देता है।
गुप्त घोल वह है जिसे StepFun व्यक्तिगत रूप से अनुकूलित मानव प्रतिक्रिया से प्रबलन अधिगम, या RLHF कहता है। मानक RLHF एक मॉडल को मानव प्राथमिकताओं के आधार पर बेहतर प्रतिक्रियाएँ देने के लिए प्रशिक्षित करता है। StepFun का संस्करण इससे आगे बढ़ता है और उस प्रतिक्रिया चक्र को विशिष्ट पात्रों के अनुसार अनुकूलित करता है, जिसका अर्थ है कि मॉडल लंबे समय तक भूमिका निभाने या ग्राहक सेवा परिदृश्यों के दौरान सुसंगठित पात्र गुणों को बनाए रख सकता है।
मॉडल वर्तमान में चीनी और अंग्रेजी दोनों का समर्थन करता है, 'step-2.5-realtime' मॉडल स्ट्रिंग के माध्यम से WebSocket API के माध्यम से कनेक्ट होता है, और StepFun के प्लेटफॉर्म API और एक विशेष रीयलटाइम कंसोल के माध्यम से उपलब्ध है। आर्किटेक्चर का एक तकनीकी रिपोर्ट arXiv पर पहचानकर्ता 2605.23463 के अंतर्गत प्रकाशित किया गया था।
क्यों पराभाषिक समझ महत्वपूर्ण है
पैरालिंग्विस्टिक समझ में StepAudio 2.5 का 82.18 स्कोर यह सुझाता है कि StepFun ने इस समस्या पर वास्तविक प्रगति की है। एक आवाज सहायक जो कॉलर के टोन में नाराजगी का पता लगा सके और मानव एजेंट को आगे बढ़ा सके, या जब यह भ्रम का संकेत महसूस करे तो अपनी बोली को धीमा कर सके, वह एक मूल रूप से अलग उत्पाद है जो केवल शब्दों को सटीकता से प्रोसेस करता है।
84.80 का ऑटोमोटिव सीनेरियो बेंचमार्क स्कोर एक और लाभदायक अनुप्रयोग की ओर संकेत करता है। कार में वॉइस असिस्टेंट्स को शोर वाले परिवेश को संभालना होगा, आदेशों को जल्दी से व्याख्या करना होगा, और आदर्श रूप से यह समझना होगा कि ड्राइवर तनावग्रस्त है या आराम से है।
