StepAudio 2.5 StepFun menduduki peringkat teratas dalam benchmark AI suara real-time pada April 2026

iconCryptoBriefing
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
StepAudio 2.5 Realtime dari StepFun, diluncurkan sekitar 24 Mei 2026, memimpin benchmark AI suara pada April 2026, mengungguli GPT Realtime 1.5 dan Gemini Live. Model ini mendapat skor 80,41 dalam evaluasi manusia, 86,36 dalam dialog umum, dan 84,80 dalam skenario otomotif. Model ini juga mencapai 79,80 dalam Q&A lisan dan 82,18 dalam pemahaman paralinguistik. StepAudio 2.5 Realtime menggunakan desain audio-masuk, audio-keluar terpadu dan mendukung bahasa Mandarin dan Inggris melalui WebSocket API. Seiring perkembangan pasar kripto, kemajuan AI semacam ini dapat memengaruhi indeks ketakutan dan keserakahan.

Sebuah laboratorium AI berbasis Shanghai baru saja membuat malu beberapa nama terbesar di industri teknologi. StepAudio 2.5 Realtime dari StepFun, yang dirilis sekitar 24 Mei, menguasai lima benchmark AI suara utama dari pengujian April 2026, mengalahkan GPT Realtime 1.5 dan Gemini Live.

Model ini tidak hanya memahami apa yang Anda katakan. Model ini memahami bagaimana Anda mengatakannya, menafsirkan nada, emosi, dan kecepatan bicara dengan cara yang membuat asisten suara pesaing sebagian besar terdengar seperti sedang membaca naskah dengan nada datar.

Angka-angka di balik kebisingan

StepAudio 2.5 Realtime mencetak skor tertinggi di semua kategori benchmark yang diuji. Dalam evaluasi manusia, skornya mencapai 80,41. Kinerja dialog umum mencapai 86,36. Pengujian skenario otomotif, yang mengukur seberapa baik model menangani interaksi suara dalam konteks mengemudi, mencapai 84,80.

Benchmark pertanyaan dan jawaban lisan, yang mencakup 11 tugas terpisah, mencapai 79,80. Dan skor pemahaman paralinguistik, yang merupakan metrik paling menarik di sini, mencapai 82,18.

Iklan

Sebagai konteks, pendahulu model ini, StepAudio 2, sudah menarik perhatian dengan skor benchmark MMAU sebesar 77,4%. Lompatan ke 2.5 Realtime merupakan lompatan signifikan, bukan sekadar pembaruan versi kecil yang disamarkan dengan bahasa pemasaran.

Bagaimana cara kerjanya sebenarnya

Arsitektur inilah yang membedakannya dari yang lain. StepAudio 2.5 Realtime menggunakan desain audio-masuk dan audio-keluar terpadu yang menggabungkan tiga kemampuan inti menjadi satu kerangka kerja: Automatic Speech Recognition (ASR), Text-to-Speech (TTS), dan pemrosesan dialog real-time.

Pikirkan seperti ini: sebagian besar sistem AI suara bekerja dalam tahapan. Mereka mentranskripsikan ucapan Anda ke teks, memproses teks tersebut, menghasilkan respons dalam bentuk teks, lalu mengonversinya kembali menjadi audio. Setiap serah terima memperkenalkan latensi dan kehilangan nuansa. Pendekatan StepFun menggabungkan langkah-langkah tersebut menjadi satu sistem yang koheren.

Rahasia utamanya adalah apa yang disebut StepFun sebagai Reinforcement Learning dari Umpan Balik Manusia berbasis persona, atau RLHF. RLHF standar melatih model untuk memberikan respons yang lebih baik berdasarkan preferensi manusia. Versi StepFun melangkah lebih jauh dengan menyesuaikan loop umpan balik tersebut ke persona tertentu, yang berarti model dapat mempertahankan ciri karakter yang konsisten selama skenario roleplay panjang atau layanan pelanggan.

Model saat ini mendukung bahasa Cina dan Inggris, terhubung melalui WebSocket API dengan string model ‘step-2.5-realtime,’ dan dapat diakses melalui API platform StepFun serta konsol realtime khusus. Laporan teknis yang mendetailkan arsitektur telah dipublikasikan di arXiv dengan identifikasi 2605.23463.

Mengapa pemahaman paralinguistik penting

Skor 82,18 StepAudio 2.5 dalam pemahaman paralinguistik menunjukkan bahwa StepFun telah membuat kemajuan nyata dalam masalah ini. Asisten suara yang dapat mendeteksi kekesalan dalam nada panggilan dan mengalihkan ke agen manusia, atau memperlambat ucapan saat mendeteksi kebingungan, merupakan produk yang secara mendasar berbeda dibandingkan yang hanya memproses kata-kata secara akurat.

Skor benchmark skenario otomotif sebesar 84,80 mengisyaratkan aplikasi menguntungkan lainnya. Asisten suara di dalam mobil perlu menangani lingkungan yang bising, menafsirkan perintah dengan cepat, dan idealnya memahami kapan pengemudi terdengar stres dibandingkan rileks.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.