Ang StepAudio 2.5 ni StepFun ay nagtop sa mga benchmark ng Voice AI noong Abril 2026

Isang AI lab na base sa Shanghai ay nag-embarrass nang tahimik ang ilan sa mga pinakamalalaking pangalan sa tech. Ang StepAudio 2.5 Realtime ni StepFun, na inilabas noong around May 24, ay nag-sweep sa lahat ng limang pangunahing voice AI benchmarks mula sa April 2026 testing, at nag-wasak sa GPT Realtime 1.5 at Gemini Live.

Hindi lang naiintindihan ng model ang sinasabi mo. Naiintindihan nito kung paano mo ito sinasabi, na nagpapahiwatig ng tono, emosyon, at bilis ng pagsasalita sa paraan na ginagawa itong mukhang binabasa ang iskrip nang monotone ang karamihan sa mga kumpetitibong voice assistant.

Ang mga numero sa likod ng ingay

Ang StepAudio 2.5 Realtime ay nakapagbigay ng pinakamataas na marka sa lahat ng kategorya ng benchmark na sinubukan. Sa tao na pagtataya, nakuha nito ang 80.41. Ang pangkalahatang pagganap sa diyalogo ay umabot sa 86.36. Ang pagsubok sa automotive scenario, na sinusukat kung gaano kahusay ang modelo sa paghawak ng voice interaction sa mga konteksto ng pagmamaneho, ay nasa 84.80.

Ang benchmark ng usapan at sagot, na sumasakop sa 11 hiwalay na gawain, ay nakuha ang 79.80. At ang marka sa pag-unawa sa paralinguistik, na maaaring ang pinakamaliliwanag na pagsukat dito, ay umabot sa 82.18.

Pamamahayag

Para sa konteksto, ang nakaraang bersyon ng modelo, ang StepAudio 2, ay nagsilbing magbigay-pansin na may MMAU benchmark score na 77.4%. Ang pagtaas patungo sa 2.5 Realtime ay isang makabuluhang paglakas, hindi lamang isang maliit na pag-update na pinapakita bilang marketing language.

Paano ito talaga gumagana

Ang arkitektura ang nagpapagkakaiba nito sa iba. Gamit ng StepAudio 2.5 Realtime ang isang pinagsamang disenyo ng audio-in at audio-out na naglalagay ng tatlong pangunahing kakayahan sa isang magkakaugnay na framework: Automatic Speech Recognition (ASR), Text-to-Speech (TTS), at real-time dialogue processing.

Isipin mo ito ganito: ang karamihan sa mga voice AI system ay gumagana sa mga hakbang. Sila ay nagtatranscribe sa iyong boses patungo sa teksto, pinoproseso ang teksto, nagpapagawa ng sagot sa teksto, at pagkatapos ay binabago ito pabalik sa audio. Bawat pagpapasa ay nagdudulot ng latency at nawawala ang nuwansa. Ang pagkakasunod-sunod ni StepFun ay pinapaliit ang mga hakbang na iyon sa isang magkakaugnay na sistema.

Ang lihim na sangkap ay ang persona-specific Reinforcement Learning from Human Feedback, o RLHF, na tinatawag ni StepFun. Ang karaniwang RLHF ay nagtuturo ng isang model upang magbigay ng mas mabubuting sagot batay sa mga preferensya ng tao. Ang bersyon ni StepFun ay umuunlad pa sa pamamagitan ng pagpapasya ng loop na ito sa mga partikular na persona, na nangangahulugan na ang model ay maaaring panatilihin ang mga pare-parehong katangian ng karakter habang nagpapalabas ng extended roleplay o customer service scenarios.

Ang modelo ay kasalukuyang sumusuporta sa Chinese at English, nagkonekta sa pamamagitan ng WebSocket API sa ilalim ng model string na ‘step-2.5-realtime,’ at ma-access sa pamamagitan ng platform API ng StepFun at isang espesyal na realtime console. Isang teknikal na ulat na naglalahad ng arkitektura ay nailathala sa arXiv sa ilalim ng identifier na 2605.23463.

Bakit mahalaga ang paralinguistikong pag-unawa

Ang 82.18 na marka ni StepAudio 2.5 sa paralinguistic comprehension ay nagpapakita na nagawa ng StepFun ang tunay na progreso sa problema na ito. Ang isang voice assistant na makakadetect ng pagkagalit sa tono ng tawag at makakapag-escalate sa isang tao, o makakapagpabagal ng pagbasa nito kapag nababasa ang kalituhan, ay isang lubos na iba’t ibang produkto kaysa sa isang isa na lamang nagpaproseso ng mga salita nang tama.

Ang automotive scenario benchmark score na 84.80 ay nagpapahiwatig ng isa pang kita-kita aplikasyon. Kailangan ng mga voice assistant sa sasakyan na harapin ang mga noisy na kapaligiran, i-interpret nang mabilis ang mga utos, at ideyal na maunawaan kung kailan ang driver ay stressado kumpara sa relaksado.