上海を拠点とするAIラボが、最新のStepFun StepAudio 2.5 Realtimeを5月24日頃にリリースし、2026年4月のテストにおいて、すべての主要な音声AIベンチマークを制覇し、GPT Realtime 1.5やGemini Liveを上回った。
このモデルは、あなたが何を言うかだけでなく、どのように言うかを理解します。トーン、感情、話す速さを解釈し、他のほとんどの競合する音声アシスタントが単調な台本読み上げのように聞こえるのに対し、自然な対話体験を提供します。
騒音の背後にある数字
StepAudio 2.5 Realtimeは、テストされたすべてのベンチマークカテゴリで最高得点を記録しました。人間による評価では80.41を獲得。一般会話のパフォーマンスは86.36、運転中の音声インタラクション処理能力を測定する自動車シナリオテストでは84.80を記録しました。
11の独立したタスクからなる話された質問応答ベンチマークは79.80を記録しました。また、おそらくここでの最も興味深い指標であるパラリンガリストック理解スコアは82.18に達しました。
コンテキストとして、前のモデルであるStepAudio 2はすでにMMAUベンチマークスコア77.4%で注目を集めました。2.5 Realtimeへの進化は、マーケティング用語で飾られた単なるバージョンアップではなく、意味のある飛躍を示しています。
実際にどのように機能するか
この製品を他と区別しているのはそのアーキテクチャです。StepAudio 2.5 Realtimeは、音声入力と音声出力を統合した設計を採用し、自動音声認識(ASR)、テキスト音声変換(TTS)、リアルタイム会話処理の3つのコア機能を単一のフレームワークに統合しています。
このような考え方をしてみてください。ほとんどの音声AIシステムは段階的に動作します。まず、あなたの話した内容をテキストに変換し、そのテキストを処理して、テキスト形式で返答を生成し、その後それを音声に変換します。各ステップの切り替えで遅延が発生し、ニュアンスが失われます。StepFunのアプローチは、これらのステップを一つの統合されたシステムに統合します。
秘密の鍵は、StepFunが「パーソナ・スペシフィック・リインフォースメント・ラーニング・フロム・ヒューマン・フィードバック(RLHF)」と呼ぶものです。標準的なRLHFは、人間の好みに基づいてモデルの応答を改善するように訓練します。StepFunのバージョンは、このフィードバックループを特定のパーソナに合わせて調整することで、長時間のロールプレイやカスタマーサービスのシナリオでも一貫したキャラクター特性を維持できるようにします。
現在のモデルは中国語と英語をサポートしており、モデル文字列「step-2.5-realtime」を通じてWebSocket APIに接続されます。これはStepFunのプラットフォームAPIおよび専用リアルタイムコンソールから利用可能です。アーキテクチャを詳細に説明する技術レポートは、arXiv上で識別子2605.23463として公開されています。
パラリンガスティック理解が重要な理由
StepAudio 2.5のパラリンガスティック理解における82.18というスコアは、StepFunがこの課題に対して実質的な進展を遂げたことを示している。呼び出し人のトーンから苛立ちを検出し、人間のエージェントに転送したり、混乱を察知して話す速度を遅くしたりできる音声アシスタントは、単に言葉を正確に処理する製品とは本質的に異なるものである。
84.80という自動車シナリオベンチマークスコアは、もう一つの収益性の高い応用を示唆しています。車内音声アシスタントは、騒音の多い環境に対応し、コマンドを迅速に解釈し、ドライバーがストレスを感じているかリラックスしているかを理想的に理解する必要があります。
