अप्रैल 2026 में स्टेपफन का स्टेपऑडियो 2.5 रियलटाइम टॉप्स वॉइस एआई बेंचमार्क

iconCryptoBriefing
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
StepFun का StepAudio 2.5 Realtime, जिसे लगभग 24 मई, 2026 के आसपास लॉन्च किया गया था, अप्रैल 2026 में आवाज़ AI बेंचमार्क में शीर्ष पर रहा, जिसने GPT Realtime 1.5 और Gemini Live को पीछे छोड़ दिया। इसने मानव मूल्यांकन में 80.41, सामान्य संवाद में 86.36 और ऑटोमोटिव परिदृश्यों में 84.80 स्कोर प्राप्त किया। इस मॉडल ने बोले गए प्रश्न-उत्तर में 79.80 और पैरालिंग्विस्टिक समझ में 82.18 भी हासिल किया। StepAudio 2.5 Realtime एक समेकित ऑडियो-इन, ऑडियो-आउट डिज़ाइन का उपयोग करता है और WebSocket API के माध्यम से चीनी और अंग्रेजी का समर्थन करता है। जैसे-जैसे क्रिप्टो बाजार विकसित होता है, ऐसी AI उन्नतियाँ भय और लालच सूचकांक को प्रभावित कर सकती हैं।

एक शंघाई-आधारित एआई लैब ने तकनीक के कुछ सबसे बड़े नामों को चुपचाप शर्मसार कर दिया। स्टेपफन का स्टेपऑडियो 2.5 रियलटाइम, जिसका लॉन्च लगभग 24 मई को हुआ, अप्रैल 2026 के परीक्षण से सभी पांच प्रमुख आवाज एआई बेंचमार्क्स पर कब्जा कर लिया, जिसमें GPT रियलटाइम 1.5 और जेमिनी लाइव को पीछे छोड़ दिया।

मॉडल केवल आपके द्वारा कहे गए शब्दों को ही समझता नहीं है। यह यह भी समझता है कि आप कैसे कह रहे हैं, जिसमें टोन, भावना और बोलने की गति को इस तरह से व्याख्या किया जाता है कि अधिकांश प्रतिस्पर्धी आवाज़ सहायक ऐसे लगते हैं जैसे वे एक समतल स्वर में पटकथा पढ़ रहे हों।

शोर के पीछे के अंक

StepAudio 2.5 Realtime ने परीक्षण किए गए हर बेंचमार्क श्रेणी में शीर्ष स्कोर प्राप्त किया। मानव मूल्यांकन में, इसने 80.41 स्कोर प्राप्त किया। सामान्य संवाद प्रदर्शन 86.36 पर पहुंचा। ऑटोमोटिव परिदृश्य परीक्षण, जो मॉडल की ड्राइविंग संदर्भ में आवाज़ अंतरक्रिया को संभालने की क्षमता को मापता है, 84.80 पर रहा।

11 अलग-अलग कार्यों पर आधारित बोली गई प्रश्न-उत्तर बेंचमार्क 79.80 पर आई। और पैरालिंगुइस्टिक समझ का स्कोर, जो यहाँ संभवतः सबसे दिलचस्प मीट्रिक है, 82.18 तक पहुँचा।

विज्ञापन

संदर्भ के लिए, मॉडल का पूर्ववर्ती, StepAudio 2, ने पहले ही MMAU बेंचमार्क स्कोर 77.4% के साथ ध्यान आकर्षित किया था। 2.5 Realtime तक की छलांग एक बार फिर मार्केटिंग के लिए सजाए गए छोटे संस्करण अपग्रेड की बजाय एक महत्वपूर्ण कूद है।

यह वास्तव में कैसे काम करता है

यह आर्किटेक्चर इसे अन्य से अलग करता है। StepAudio 2.5 Realtime एक एकीकृत ऑडियो-इन, ऑडियो-आउट डिज़ाइन का उपयोग करता है जो तीन मुख्य क्षमताओं को एक ही फ्रेमवर्क में जोड़ता है: ऑटोमैटिक स्पीच रिकग्निशन (ASR), टेक्स्ट-टू-स्पीच (TTS), और रियल-टाइम डायलॉग प्रोसेसिंग।

इसे इस तरह सोचिए: अधिकांश आवाज़ AI प्रणालियाँ चरणों में काम करती हैं। वे आपकी बात को पाठ में ट्रांसक्राइब करती हैं, पाठ को प्रोसेस करती हैं, पाठ में प्रतिक्रिया उत्पन्न करती हैं, और फिर उसे फिर से ऑडियो में रूपांतर करती हैं। प्रत्येक हैंडऑफ़ पर लेटेंसी आती है और सूक्ष्मता खो जाती है। स्टेपफन का दृष्टिकोण इन चरणों को एक समन्वयित प्रणाली में समेट देता है।

गुप्त घोल वह है जिसे StepFun व्यक्तिगत रूप से अनुकूलित मानव प्रतिक्रिया से प्रबलन अधिगम, या RLHF कहता है। मानक RLHF एक मॉडल को मानव प्राथमिकताओं के आधार पर बेहतर प्रतिक्रियाएँ देने के लिए प्रशिक्षित करता है। StepFun का संस्करण इससे आगे बढ़ता है और उस प्रतिक्रिया चक्र को विशिष्ट पात्रों के अनुसार अनुकूलित करता है, जिसका अर्थ है कि मॉडल लंबे समय तक भूमिका निभाने या ग्राहक सेवा परिदृश्यों के दौरान सुसंगठित पात्र गुणों को बनाए रख सकता है।

मॉडल वर्तमान में चीनी और अंग्रेजी दोनों का समर्थन करता है, 'step-2.5-realtime' मॉडल स्ट्रिंग के माध्यम से WebSocket API के माध्यम से कनेक्ट होता है, और StepFun के प्लेटफॉर्म API और एक विशेष रीयलटाइम कंसोल के माध्यम से उपलब्ध है। आर्किटेक्चर का एक तकनीकी रिपोर्ट arXiv पर पहचानकर्ता 2605.23463 के अंतर्गत प्रकाशित किया गया था।

क्यों पराभाषिक समझ महत्वपूर्ण है

पैरालिंग्विस्टिक समझ में StepAudio 2.5 का 82.18 स्कोर यह सुझाता है कि StepFun ने इस समस्या पर वास्तविक प्रगति की है। एक आवाज सहायक जो कॉलर के टोन में नाराजगी का पता लगा सके और मानव एजेंट को आगे बढ़ा सके, या जब यह भ्रम का संकेत महसूस करे तो अपनी बोली को धीमा कर सके, वह एक मूल रूप से अलग उत्पाद है जो केवल शब्दों को सटीकता से प्रोसेस करता है।

84.80 का ऑटोमोटिव सीनेरियो बेंचमार्क स्कोर एक और लाभदायक अनुप्रयोग की ओर संकेत करता है। कार में वॉइस असिस्टेंट्स को शोर वाले परिवेश को संभालना होगा, आदेशों को जल्दी से व्याख्या करना होगा, और आदर्श रूप से यह समझना होगा कि ड्राइवर तनावग्रस्त है या आराम से है।

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।