Sebuah laboratorium AI berbasis Shanghai baru saja membuat malu beberapa nama terbesar di industri teknologi. StepAudio 2.5 Realtime dari StepFun, yang dirilis sekitar 24 Mei, menguasai lima benchmark AI suara utama dari pengujian April 2026, mengalahkan GPT Realtime 1.5 dan Gemini Live.
Model ini tidak hanya memahami apa yang Anda katakan. Model ini memahami bagaimana Anda mengatakannya, menafsirkan nada, emosi, dan kecepatan bicara dengan cara yang membuat asisten suara pesaing sebagian besar terdengar seperti sedang membaca naskah dengan nada datar.
Angka-angka di balik kebisingan
StepAudio 2.5 Realtime mencetak skor tertinggi di semua kategori benchmark yang diuji. Dalam evaluasi manusia, skornya mencapai 80,41. Kinerja dialog umum mencapai 86,36. Pengujian skenario otomotif, yang mengukur seberapa baik model menangani interaksi suara dalam konteks mengemudi, mencapai 84,80.
Benchmark pertanyaan dan jawaban lisan, yang mencakup 11 tugas terpisah, mencapai 79,80. Dan skor pemahaman paralinguistik, yang merupakan metrik paling menarik di sini, mencapai 82,18.
Sebagai konteks, pendahulu model ini, StepAudio 2, sudah menarik perhatian dengan skor benchmark MMAU sebesar 77,4%. Lompatan ke 2.5 Realtime merupakan lompatan signifikan, bukan sekadar pembaruan versi kecil yang disamarkan dengan bahasa pemasaran.
Bagaimana cara kerjanya sebenarnya
Arsitektur inilah yang membedakannya dari yang lain. StepAudio 2.5 Realtime menggunakan desain audio-masuk dan audio-keluar terpadu yang menggabungkan tiga kemampuan inti menjadi satu kerangka kerja: Automatic Speech Recognition (ASR), Text-to-Speech (TTS), dan pemrosesan dialog real-time.
Pikirkan seperti ini: sebagian besar sistem AI suara bekerja dalam tahapan. Mereka mentranskripsikan ucapan Anda ke teks, memproses teks tersebut, menghasilkan respons dalam bentuk teks, lalu mengonversinya kembali menjadi audio. Setiap serah terima memperkenalkan latensi dan kehilangan nuansa. Pendekatan StepFun menggabungkan langkah-langkah tersebut menjadi satu sistem yang koheren.
Rahasia utamanya adalah apa yang disebut StepFun sebagai Reinforcement Learning dari Umpan Balik Manusia berbasis persona, atau RLHF. RLHF standar melatih model untuk memberikan respons yang lebih baik berdasarkan preferensi manusia. Versi StepFun melangkah lebih jauh dengan menyesuaikan loop umpan balik tersebut ke persona tertentu, yang berarti model dapat mempertahankan ciri karakter yang konsisten selama skenario roleplay panjang atau layanan pelanggan.
Model saat ini mendukung bahasa Cina dan Inggris, terhubung melalui WebSocket API dengan string model ‘step-2.5-realtime,’ dan dapat diakses melalui API platform StepFun serta konsol realtime khusus. Laporan teknis yang mendetailkan arsitektur telah dipublikasikan di arXiv dengan identifikasi 2605.23463.
Mengapa pemahaman paralinguistik penting
Skor 82,18 StepAudio 2.5 dalam pemahaman paralinguistik menunjukkan bahwa StepFun telah membuat kemajuan nyata dalam masalah ini. Asisten suara yang dapat mendeteksi kekesalan dalam nada panggilan dan mengalihkan ke agen manusia, atau memperlambat ucapan saat mendeteksi kebingungan, merupakan produk yang secara mendasar berbeda dibandingkan yang hanya memproses kata-kata secara akurat.
Skor benchmark skenario otomotif sebesar 84,80 mengisyaratkan aplikasi menguntungkan lainnya. Asisten suara di dalam mobil perlu menangani lingkungan yang bising, menafsirkan perintah dengan cepat, dan idealnya memahami kapan pengemudi terdengar stres dibandingkan rileks.
