Sebuah lab AI berpusat di Shanghai baru sahaja membuatkan beberapa nama terbesar dalam teknologi malu. StepAudio 2.5 Realtime daripada StepFun, yang dilancarkan sekitar 24 Mei, menguasai lima tolok AI suara utama daripada ujian April 2026, mengalahkan GPT Realtime 1.5 dan Gemini Live dalam prosesnya.
Model ini tidak hanya memahami apa yang anda katakan. Ia memahami bagaimana anda mengatakannya, mentafsirkan nada, emosi, dan kadar ucapan dengan cara yang membuat kebanyakan pembantu suara pesaing kelihatan seolah-olah membaca skrip dengan nada datar.
Nombor di sebalik kebisingan
StepAudio 2.5 Realtime mencatat skor tertinggi di semua kategori ujian. Dalam penilaian manusia, ia mendapat skor 80.41. Prestasi dialog umum mencapai 86.36. Pengujian senario automotif, yang mengukur sejauh mana model mengendalikan interaksi suara dalam konteks memandu, mencatat 84.80.
Pengukuran soal-jawab lisan, yang merangkumi 11 tugas berasingan, mencapai 79.80. Dan skor pemahaman paralinguistik, yang mungkin merupakan metrik paling menarik di sini, mencapai 82.18.
Sebagai konteks, pendahulu model ini, StepAudio 2, sudah menarik perhatian dengan skor MMAU sebanyak 77.4%. Lompatan ke 2.5 Realtime merupakan lompatan bermakna, bukan sekadar peningkatan versi kecil yang hanya disamarkan dengan bahasa pemasaran.
Bagaimana ia sebenarnya berfungsi
Arsitektur inilah yang membezakannya daripada yang lain. StepAudio 2.5 Realtime menggunakan reka bentuk audio-masuk, audio-keluar yang terpadu yang menggabungkan tiga kemampuan utama ke dalam satu kerangka kerja: Pengenalan Ucapan Automatik (ASR), Teks-ke-Ucapan (TTS), dan pemprosesan dialog secara masa nyata.
Anggapkan begini: kebanyakan sistem AI suara berfungsi dalam peringkat-peringkat. Mereka mentranskripsikan ucapan anda kepada teks, memproses teks tersebut, menghasilkan respons dalam bentuk teks, kemudian menukar kembali kepada audio. Setiap peralihan memperkenalkan latensi dan kehilangan nuansa. Pendekatan StepFun merangkumkan langkah-langkah tersebut menjadi satu sistem yang padu.
Rahsia utama ialah apa yang StepFun panggil Pembelajaran Penguatan Berdasarkan Umpan Balik Manusia khusus persona, atau RLHF. RLHF biasa melatih model untuk memberikan respons yang lebih baik berdasarkan preferensi manusia. Versi StepFun melangkah lebih jauh dengan menyesuaikan gelung umpan balik tersebut kepada persona tertentu, yang bermaksud model boleh mengekalkan ciri-ciri watak yang konsisten semasa permainan peranan atau skenario perkhidmatan pelanggan yang panjang.
Model ini semasa ini menyokong bahasa Cina dan Inggeris, menyambung melalui WebSocket API di bawah string model ‘step-2.5-realtime,’ dan boleh diakses melalui API platform StepFun dan konsol realtime khusus. Laporan teknikal yang menerangkan arsitektur telah diterbitkan di arXiv dengan pengenal 2605.23463.
Mengapa pemahaman paralinguistik penting
Skor 82.18 StepAudio 2.5 dalam pemahaman paralinguistik menunjukkan bahawa StepFun telah membuat kemajuan nyata dalam masalah ini. Sebuah asisten suara yang mampu mengesan kekesalan dalam nada panggilan dan mengalihkan kepada agen manusia, atau memperlambat ucapan apabila mengesan kekeliruan, mewakili produk yang berbeza secara asas berbanding yang hanya memproses perkataan dengan tepat.
Skor benchmark senario automotif sebanyak 84.80 menunjukkan aplikasi yang menguntungkan lain. Pembantu suara di dalam kereta perlu menangani persekitaran yang bising, mentafsir arahan dengan pantas, dan secara ideal memahami kapan pemandu kedengaran stres berbanding santai.
