StepAudio 2.5 от StepFun возглавил рейтинги голосовых ИИ в апреле 2026 года

iconCryptoBriefing
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
StepFun’s StepAudio 2.5 Realtime, запущенный примерно 24 мая 2026 года, возглавил рейтинги голосовых ИИ в апреле 2026 года, опередив GPT Realtime 1.5 и Gemini Live. Он набрал 80,41 по оценке людей, 86,36 в общем диалоге и 84,80 в автомобильных сценариях. Модель также показала 79,80 в устном Q&A и 82,18 в понимании паравербальных сигналов. StepAudio 2.5 Realtime использует унифицированную архитектуру аудио-на-входе, аудио-на-выходе и поддерживает китайский и английский языки через WebSocket API. По мере развития криптовалютного рынка такие достижения в области ИИ могут повлиять на индекс страха и жадности.

Шанхайская лаборатория ИИ тихо поставила на место одни из крупнейших имен в технологиях. StepAudio 2.5 Realtime от StepFun, выпущенный примерно 24 мая, охватил все пять основных бенчмарков голосового ИИ по тестированию апреля 2026 года, обойдя GPT Realtime 1.5 и Gemini Live.

Модель понимает не только то, что вы говорите, но и то, как вы это говорите, интерпретируя интонацию, эмоции и темп речи таким образом, что большинство конкурирующих голосовых помощников звучат как будто зачитывают сценарий монотонным голосом.

Числа за шумом

StepAudio 2.5 Realtime показал наилучшие результаты по всем тестированным категориям эталонных показателей. При оценке людьми он набрал 80,41 балла. Производительность в общем диалоге достигла 86,36. Тестирование в автомобильных сценариях, которое измеряет, насколько хорошо модель справляется с голосовым взаимодействием в условиях вождения, показало результат 84,80.

Результаты устного теста «вопрос-ответ», охватывающего 11 отдельных задач, составили 79,80. А показатель понимания паралингвистики, пожалуй, самый интересный метрик здесь, достиг 82,18.

Реклама

Для контекста: предшественник модели, StepAudio 2, уже привлек внимание с результатом 77,4% по бенчмарку MMAU. Переход к 2.5 Realtime представляет собой значительный скачок, а не просто незначительное обновление версии, приукрашенное маркетинговым языком.

Как это на самом деле работает

Архитектура — это то, что отличает её от других. StepAudio 2.5 Realtime использует унифицированную архитектуру с одним входом и одним выходом аудио, объединяющую три основные функции в единую систему: автоматическое распознавание речи (ASR), синтез речи из текста (TTS) и обработка диалога в реальном времени.

Представьте это так: большинство голосовых ИИ-систем работают поэтапно. Они транскрибируют вашу речь в текст, обрабатывают текст, генерируют ответ в текстовом виде, а затем преобразуют его обратно в аудио. Каждый переход добавляет задержку и теряет нюансы. Подход StepFun объединяет эти этапы в одну целостную систему.

Секретный ингредиент — это то, что StepFun называет персона-специфичным усилением обучения на основе обратной связи от людей, или RLHF. Стандартный RLHF обучает модель давать лучшие ответы на основе человеческих предпочтений. Версия StepFun идет дальше, адаптируя этот цикл обратной связи к конкретным персонажам, что означает, что модель может поддерживать последовательные черты характера во время длительной ролевой игры или сценариев обслуживания клиентов.

Модель в настоящее время поддерживает китайский и английский языки, подключается через WebSocket API по строке модели ‘step-2.5-realtime’ и доступна через платформенный API StepFun и отдельную консоль в режиме реального времени. Технический отчет, описывающий архитектуру, опубликован на arXiv под идентификатором 2605.23463.

Почему важна паралингвистическая компрехензия

Результат StepAudio 2.5 в 82,18 балла по показателю паралингвистического понимания свидетельствует о реальном прогрессе StepFun в решении этой задачи. Голосовой помощник, способный распознавать раздражение в тоне звонящего и передавать вызов человеку-оператору или замедлять речь при обнаружении путаницы, представляет собой принципиально иной продукт по сравнению с тем, который просто точно обрабатывает слова.

Результат теста для автомобильного сценария — 84,80 — намекает на еще одну прибыльную область применения. Встроенные голосовые помощники в автомобилях должны справляться с шумными условиями, быстро интерпретировать команды и, желательно, уметь различать, когда водитель находится в стрессовом или расслабленном состоянии.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.