StepFun's StepAudio 2.5 у реальному часі посідає перше місце серед AI-бенчмарків для голосу у квітні 2026 року

iconCryptoBriefing
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
StepFun’s StepAudio 2.5 Realtime, запущений близько 24 травня 2026 року, посів перше місце у рейтингах голосового ІІ у квітні 2026 року, перевершивши GPT Realtime 1.5 та Gemini Live. Він отримав 80,41 бала у людській оцінці, 86,36 у загальному діалозі та 84,80 у автомобільних сценаріях. Модель також досягла 79,80 у усній відповіді на запитання та 82,18 у розумінні паралінгвістики. StepAudio 2.5 Realtime використовує єдиний дизайн аудіо-на-вхід, аудіо-на-вихід і підтримує китайську та англійську мови через WebSocket API. По мірі розвитку криптовалютного ринку такі досягнення в галузі ІІ можуть впливати на індекс страху та жадоби.

Шанхайська лабораторія зі штучного інтелекту тихо поставила на місце одні з найбільших імен у технологічній галузі. StepFun’s StepAudio 2.5 Realtime, випущений близько 24 травня, охопив усі п’ять основних бенчмарків голосового ІІ з тестування за квітень 2026 року, обійшовши GPT Realtime 1.5 та Gemini Live.

Модель розуміє не лише те, що ви кажете, а й те, як ви це кажете, інтерпретуючи тон, емоції та швидкість мовлення таким чином, що більшість конкуруючих голосових асистентів звучать як читання сценарію монотонним голосом.

Числа за шумом

StepAudio 2.5 Realtime показав найвищі результати у всіх категоріях тестування. У людській оцінці він набрав 80,41. Загальна продуктивність діалогу досягла 86,36. Тестування сценаріїв автомобілів, яке вимірює, наскільки добре модель справляється з голосовою взаємодією в умовах водіння, показало 84,80.

Результати усного тесту «питання-відповідь», що охоплює 11 окремих завдань, склали 79,80. А бал з розуміння паралінгвістики, ймовірно, найцікавіший показник тут, досяг 82,18.

Реклама

Для контексту, попередник моделі, StepAudio 2, вже привернув увагу з результатом MMAU 77,4%. Перехід до 2.5 Realtime — це суттєвий стрибок, а не просто інкрементальне оновлення, прикрашене маркетинговою мовою.

Як це працює насправді

Архітектура — це те, що відрізняє її від інших. StepAudio 2.5 Realtime використовує єдину архітектуру аудіовходу та аудіовиходу, яка об’єднує три основні функції в одній системі: автоматичне розпізнавання мови (ASR), синтез мови з тексту (TTS) та обробку діалогу в реальному часі.

Уявіть це так: більшість голосових AI-систем працюють у кілька етапів. Вони транскрибують вашу мову у текст, обробляють текст, генерують відповідь у текстовій формі, а потім перетворюють її назад у аудіо. Кожен перехід вводить затримку та втрачає нюанси. Підхід StepFun об’єднує ці кроки в одну єдину систему.

Секретний інгредієнт — це те, що StepFun називає персона-специфічним підсиленням навчання на основі людських відгуків, або RLHF. Стандартний RLHF навчає модель надавати кращі відповіді на основі людських уподобань. Версія StepFun йде далі, адаптуючи цей цикл відгуків до конкретних персонажів, що означає, що модель може підтримувати послідовні риси персонажа під час тривалих сценаріїв ролевої гри або обслуговування клієнтів.

Модель наразі підтримує китайську та англійську мови, підключається через WebSocket API за рядком моделі ‘step-2.5-realtime’ і доступна через платформу StepFun API та окрему консоль у реальному часі. Технічний звіт з описом архітектури опубліковано на arXiv під ідентифікатором 2605.23463.

Чому важливе паралінгвістичне розуміння

Результат 82,18 у сфері паралінгвістичного розуміння StepAudio 2.5 свідчить про реальний прогрес StepFun у вирішенні цієї проблеми. Голосовий асистент, який може виявляти роздратування в тоні дзвінкого та передавати його людині-оператору або повільно говорити, коли виявляє незрозумілість, — це фундаментально інший продукт, ніж той, що просто точно обробляє слова.

Результат тесту сценарію автомобільного застосування 84,80 вказує на ще одну прибуткову сферу застосування. Голосові асистенти в автомобілі повинні вміти працювати в шумних умовах, швидко інтерпретувати команди та, ідеально, розрізняти, коли водій розслаблений, а коли стресований.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.