StepFun's StepAudio 2.5 у реальному часі посідає перше місце серед AI-бенчмарків для голосу у квітні 2026 року

Шанхайська лабораторія зі штучного інтелекту тихо поставила на місце одні з найбільших імен у технологічній галузі. StepFun’s StepAudio 2.5 Realtime, випущений близько 24 травня, охопив усі п’ять основних бенчмарків голосового ІІ з тестування за квітень 2026 року, обійшовши GPT Realtime 1.5 та Gemini Live.

Модель розуміє не лише те, що ви кажете, а й те, як ви це кажете, інтерпретуючи тон, емоції та швидкість мовлення таким чином, що більшість конкуруючих голосових асистентів звучать як читання сценарію монотонним голосом.

Числа за шумом

StepAudio 2.5 Realtime показав найвищі результати у всіх категоріях тестування. У людській оцінці він набрав 80,41. Загальна продуктивність діалогу досягла 86,36. Тестування сценаріїв автомобілів, яке вимірює, наскільки добре модель справляється з голосовою взаємодією в умовах водіння, показало 84,80.

Результати усного тесту «питання-відповідь», що охоплює 11 окремих завдань, склали 79,80. А бал з розуміння паралінгвістики, ймовірно, найцікавіший показник тут, досяг 82,18.

Для контексту, попередник моделі, StepAudio 2, вже привернув увагу з результатом MMAU 77,4%. Перехід до 2.5 Realtime — це суттєвий стрибок, а не просто інкрементальне оновлення, прикрашене маркетинговою мовою.

Як це працює насправді

Архітектура — це те, що відрізняє її від інших. StepAudio 2.5 Realtime використовує єдину архітектуру аудіовходу та аудіовиходу, яка об’єднує три основні функції в одній системі: автоматичне розпізнавання мови (ASR), синтез мови з тексту (TTS) та обробку діалогу в реальному часі.

Уявіть це так: більшість голосових AI-систем працюють у кілька етапів. Вони транскрибують вашу мову у текст, обробляють текст, генерують відповідь у текстовій формі, а потім перетворюють її назад у аудіо. Кожен перехід вводить затримку та втрачає нюанси. Підхід StepFun об’єднує ці кроки в одну єдину систему.

Секретний інгредієнт — це те, що StepFun називає персона-специфічним підсиленням навчання на основі людських відгуків, або RLHF. Стандартний RLHF навчає модель надавати кращі відповіді на основі людських уподобань. Версія StepFun йде далі, адаптуючи цей цикл відгуків до конкретних персонажів, що означає, що модель може підтримувати послідовні риси персонажа під час тривалих сценаріїв ролевої гри або обслуговування клієнтів.

Модель наразі підтримує китайську та англійську мови, підключається через WebSocket API за рядком моделі ‘step-2.5-realtime’ і доступна через платформу StepFun API та окрему консоль у реальному часі. Технічний звіт з описом архітектури опубліковано на arXiv під ідентифікатором 2605.23463.

Чому важливе паралінгвістичне розуміння

Результат 82,18 у сфері паралінгвістичного розуміння StepAudio 2.5 свідчить про реальний прогрес StepFun у вирішенні цієї проблеми. Голосовий асистент, який може виявляти роздратування в тоні дзвінкого та передавати його людині-оператору або повільно говорити, коли виявляє незрозумілість, — це фундаментально інший продукт, ніж той, що просто точно обробляє слова.

Результат тесту сценарію автомобільного застосування 84,80 вказує на ще одну прибуткову сферу застосування. Голосові асистенти в автомобілі повинні вміти працювати в шумних умовах, швидко інтерпретувати команди та, ідеально, розрізняти, коли водій розслаблений, а коли стресований.