StepFun 的 StepAudio 2.5 實時語音 AI 在 2026 年 4 月登上排行榜首位

一家位於上海的人工智慧實驗室剛剛悄然讓科技界的一些巨頭相形見絀。StepFun 的 StepAudio 2.5 Realtime 於 5 月 24 日左右發布，在 2026 年 4 月的五項主要語音 AI 基準測試中全面勝出，超越了 GPT Realtime 1.5 和 Gemini Live。

這個模型不僅理解您說的內容，還能理解您說話的方式，解讀語氣、情緒和語速，使大多數競爭對手的語音助手聽起來像在用單調的語調朗讀腳本。

噪音背後的數字

StepAudio 2.5 Realtime 在所有測試的基準類別中均取得最高分。在人工評估中，其得分為 80.41。一般對話表現達到 86.36。汽車場景測試（用於衡量模型在駕駛情境下處理語音互動的能力）得分为 84.80。

涵蓋 11 個獨立任務的口語問答基準得分為 79.80。而語調理解分數，無疑是這裡最有趣的指標，達到 82.18。

作為參考，前一代模型 StepAudio 2 已憑藉 MMAU 基準分數 77.4% 引起關注。而邁向 2.5 Realtime 的躍升，是一次實質性的進步，而非僅僅是包裝在行銷語言中的 incremental 版本更新。

它是如何實際運作的

該架構使它與眾不同。StepAudio 2.5 Realtime 採用統一的音訊輸入、音訊輸出設計，將三大核心功能整合至單一框架中：自動語音識別（ASR）、語音轉文字（TTS）和即時對話處理。

請這樣想：大多數語音 AI 系統分階段運作，它們先將您的語音轉錄為文字，處理文字，生成文字回應，再將其轉換回音頻。每個交接環節都會引入延遲並喪失細微差異。StepFun 的方法將這些步驟整合為一個統一的系統。

秘密配方是 StepFun 所稱的「以人物為基礎的人類反饋強化學習」（persona-specific Reinforcement Learning from Human Feedback，RLHF）。標準的 RLHF 會根據人類偏好訓練模型以產生更佳的回應，而 StepFun 的版本更進一步，將這個反饋迴路針對特定人物進行調整，這意味著模型在長時間的角色扮演或客戶服務情境中，都能保持一致的角色特徵。

該模型目前支援中文和英文，透過模型字串 ‘step-2.5-realtime’ 以 WebSocket API 連接，並可透過 StepFun 平台 API 及專屬的即時控制台存取。詳細說明架構的技術報告已於 arXiv 發表，識別碼為 2605.23463。

為何副語言理解至關重要

StepAudio 2.5 在語非語言理解上的 82.18 分表明 StepFun 在此問題上已取得實質進展。能夠偵測呼叫者語氣中的挫敗感並轉接至人工客服，或在感知到困惑時放慢語速的語音助手，與僅能準確處理文字的產品有本質上的不同。

汽車場景基準分數 84.80 暗示了另一個盈利潛力巨大的應用。車內語音助手需要在嘈雜環境中運作、快速解讀指令，並最好能辨別駕駛員是處於緊張還是放鬆狀態。