StepAudio 2.5 от StepFun возглавил рейтинги голосовых ИИ в апреле 2026 года

Шанхайская лаборатория ИИ тихо поставила на место одни из крупнейших имен в технологиях. StepAudio 2.5 Realtime от StepFun, выпущенный примерно 24 мая, охватил все пять основных бенчмарков голосового ИИ по тестированию апреля 2026 года, обойдя GPT Realtime 1.5 и Gemini Live.

Модель понимает не только то, что вы говорите, но и то, как вы это говорите, интерпретируя интонацию, эмоции и темп речи таким образом, что большинство конкурирующих голосовых помощников звучат как будто зачитывают сценарий монотонным голосом.

Числа за шумом

StepAudio 2.5 Realtime показал наилучшие результаты по всем тестированным категориям эталонных показателей. При оценке людьми он набрал 80,41 балла. Производительность в общем диалоге достигла 86,36. Тестирование в автомобильных сценариях, которое измеряет, насколько хорошо модель справляется с голосовым взаимодействием в условиях вождения, показало результат 84,80.

Результаты устного теста «вопрос-ответ», охватывающего 11 отдельных задач, составили 79,80. А показатель понимания паралингвистики, пожалуй, самый интересный метрик здесь, достиг 82,18.

Для контекста: предшественник модели, StepAudio 2, уже привлек внимание с результатом 77,4% по бенчмарку MMAU. Переход к 2.5 Realtime представляет собой значительный скачок, а не просто незначительное обновление версии, приукрашенное маркетинговым языком.

Как это на самом деле работает

Архитектура — это то, что отличает её от других. StepAudio 2.5 Realtime использует унифицированную архитектуру с одним входом и одним выходом аудио, объединяющую три основные функции в единую систему: автоматическое распознавание речи (ASR), синтез речи из текста (TTS) и обработка диалога в реальном времени.

Представьте это так: большинство голосовых ИИ-систем работают поэтапно. Они транскрибируют вашу речь в текст, обрабатывают текст, генерируют ответ в текстовом виде, а затем преобразуют его обратно в аудио. Каждый переход добавляет задержку и теряет нюансы. Подход StepFun объединяет эти этапы в одну целостную систему.

Секретный ингредиент — это то, что StepFun называет персона-специфичным усилением обучения на основе обратной связи от людей, или RLHF. Стандартный RLHF обучает модель давать лучшие ответы на основе человеческих предпочтений. Версия StepFun идет дальше, адаптируя этот цикл обратной связи к конкретным персонажам, что означает, что модель может поддерживать последовательные черты характера во время длительной ролевой игры или сценариев обслуживания клиентов.

Модель в настоящее время поддерживает китайский и английский языки, подключается через WebSocket API по строке модели ‘step-2.5-realtime’ и доступна через платформенный API StepFun и отдельную консоль в режиме реального времени. Технический отчет, описывающий архитектуру, опубликован на arXiv под идентификатором 2605.23463.

Почему важна паралингвистическая компрехензия

Результат StepAudio 2.5 в 82,18 балла по показателю паралингвистического понимания свидетельствует о реальном прогрессе StepFun в решении этой задачи. Голосовой помощник, способный распознавать раздражение в тоне звонящего и передавать вызов человеку-оператору или замедлять речь при обнаружении путаницы, представляет собой принципиально иной продукт по сравнению с тем, который просто точно обрабатывает слова.

Результат теста для автомобильного сценария — 84,80 — намекает на еще одну прибыльную область применения. Встроенные голосовые помощники в автомобилях должны справляться с шумными условиями, быстро интерпретировать команды и, желательно, уметь различать, когда водитель находится в стрессовом или расслабленном состоянии.