StepAudio 2.5 StepFun memimpin ujian AI suara secara masa nyata pada April 2026

iconCryptoBriefing
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
StepAudio 2.5 Realtime dari StepFun, dilancarkan sekitar 24 Mei 2026, memuncaki ujian AI suara pada April 2026, mengungguli GPT Realtime 1.5 dan Gemini Live. Ia mendapat skor 80.41 dalam penilaian manusia, 86.36 dalam dialog umum, dan 84.80 dalam senario automotif. Model ini juga mencapai 79.80 dalam soal jawab lisan dan 82.18 dalam pemahaman paralinguistik. StepAudio 2.5 Realtime menggunakan reka bentuk audio-masuk, audio-keluar yang terpadu dan menyokong Bahasa Cina dan Inggeris melalui WebSocket API. Seiring perkembangan pasaran kripto, kemajuan AI seperti ini mungkin mempengaruhi indeks takut dan serakah.

Sebuah lab AI berpusat di Shanghai baru sahaja membuatkan beberapa nama terbesar dalam teknologi malu. StepAudio 2.5 Realtime daripada StepFun, yang dilancarkan sekitar 24 Mei, menguasai lima tolok AI suara utama daripada ujian April 2026, mengalahkan GPT Realtime 1.5 dan Gemini Live dalam prosesnya.

Model ini tidak hanya memahami apa yang anda katakan. Ia memahami bagaimana anda mengatakannya, mentafsirkan nada, emosi, dan kadar ucapan dengan cara yang membuat kebanyakan pembantu suara pesaing kelihatan seolah-olah membaca skrip dengan nada datar.

Nombor di sebalik kebisingan

StepAudio 2.5 Realtime mencatat skor tertinggi di semua kategori ujian. Dalam penilaian manusia, ia mendapat skor 80.41. Prestasi dialog umum mencapai 86.36. Pengujian senario automotif, yang mengukur sejauh mana model mengendalikan interaksi suara dalam konteks memandu, mencatat 84.80.

Pengukuran soal-jawab lisan, yang merangkumi 11 tugas berasingan, mencapai 79.80. Dan skor pemahaman paralinguistik, yang mungkin merupakan metrik paling menarik di sini, mencapai 82.18.

Iklan

Sebagai konteks, pendahulu model ini, StepAudio 2, sudah menarik perhatian dengan skor MMAU sebanyak 77.4%. Lompatan ke 2.5 Realtime merupakan lompatan bermakna, bukan sekadar peningkatan versi kecil yang hanya disamarkan dengan bahasa pemasaran.

Bagaimana ia sebenarnya berfungsi

Arsitektur inilah yang membezakannya daripada yang lain. StepAudio 2.5 Realtime menggunakan reka bentuk audio-masuk, audio-keluar yang terpadu yang menggabungkan tiga kemampuan utama ke dalam satu kerangka kerja: Pengenalan Ucapan Automatik (ASR), Teks-ke-Ucapan (TTS), dan pemprosesan dialog secara masa nyata.

Anggapkan begini: kebanyakan sistem AI suara berfungsi dalam peringkat-peringkat. Mereka mentranskripsikan ucapan anda kepada teks, memproses teks tersebut, menghasilkan respons dalam bentuk teks, kemudian menukar kembali kepada audio. Setiap peralihan memperkenalkan latensi dan kehilangan nuansa. Pendekatan StepFun merangkumkan langkah-langkah tersebut menjadi satu sistem yang padu.

Rahsia utama ialah apa yang StepFun panggil Pembelajaran Penguatan Berdasarkan Umpan Balik Manusia khusus persona, atau RLHF. RLHF biasa melatih model untuk memberikan respons yang lebih baik berdasarkan preferensi manusia. Versi StepFun melangkah lebih jauh dengan menyesuaikan gelung umpan balik tersebut kepada persona tertentu, yang bermaksud model boleh mengekalkan ciri-ciri watak yang konsisten semasa permainan peranan atau skenario perkhidmatan pelanggan yang panjang.

Model ini semasa ini menyokong bahasa Cina dan Inggeris, menyambung melalui WebSocket API di bawah string model ‘step-2.5-realtime,’ dan boleh diakses melalui API platform StepFun dan konsol realtime khusus. Laporan teknikal yang menerangkan arsitektur telah diterbitkan di arXiv dengan pengenal 2605.23463.

Mengapa pemahaman paralinguistik penting

Skor 82.18 StepAudio 2.5 dalam pemahaman paralinguistik menunjukkan bahawa StepFun telah membuat kemajuan nyata dalam masalah ini. Sebuah asisten suara yang mampu mengesan kekesalan dalam nada panggilan dan mengalihkan kepada agen manusia, atau memperlambat ucapan apabila mengesan kekeliruan, mewakili produk yang berbeza secara asas berbanding yang hanya memproses perkataan dengan tepat.

Skor benchmark senario automotif sebanyak 84.80 menunjukkan aplikasi yang menguntungkan lain. Pembantu suara di dalam kereta perlu menangani persekitaran yang bising, mentafsir arahan dengan pantas, dan secara ideal memahami kapan pemandu kedengaran stres berbanding santai.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.