Un laboratoire d’IA basé à Shanghai vient de mettre discrètement en échec certains des plus grands noms de la tech. StepAudio 2.5 Realtime de StepFun, publié vers le 24 mai, a dominé les cinq principaux benchmarks de l’IA vocale issus des tests d’avril 2026, devançant à la fois GPT Realtime 1.5 et Gemini Live.
Le modèle ne se contente pas de comprendre ce que vous dites. Il comprend la manière dont vous le dites, interprétant le ton, les émotions et la vitesse de parole d'une manière qui fait paraître la plupart des assistants vocaux concurrents comme s'ils lisaient un script d'une voix monotone.
Les chiffres derrière le bruit
StepAudio 2.5 en temps réel a obtenu les meilleurs scores dans toutes les catégories de benchmarks testées. Lors de l'évaluation humaine, il a obtenu 80,41. La performance générale en dialogue a atteint 86,36. Les tests dans un scénario automobile, qui mesurent la capacité du modèle à gérer les interactions vocales dans des contextes de conduite, ont atteint 84,80.
Le benchmark de questions-réponses orales, couvrant 11 tâches distinctes, a obtenu un score de 79,80. Et le score de compréhension paralinguistique, sans doute la métrique la plus intéressante ici, a atteint 82,18.
Pour contexte, le prédécesseur du modèle, StepAudio 2, avait déjà retenu l'attention avec un score MMAU de 77,4 %. Le passage à 2.5 Realtime représente un saut significatif, et non une simple mise à jour de version présentée comme telle dans le langage marketing.
Comment ça fonctionne réellement
L'architecture est ce qui la distingue de la concurrence. StepAudio 2.5 Realtime utilise une conception unifiée entrée-audio/sortie-audio qui combine trois capacités fondamentales en un seul cadre : la reconnaissance automatique de la parole (ASR), la synthèse vocale (TTS) et le traitement en temps réel des dialogues.
Pensez-y ainsi : la plupart des systèmes d’IA vocale fonctionnent par étapes. Ils transcrivent votre parole en texte, traitent le texte, génèrent une réponse sous forme textuelle, puis la convertissent à nouveau en audio. Chaque transfert introduit une latence et fait perdre en nuance. L’approche de StepFun regroupe ces étapes en un seul système cohérent.
La sauce secrète est ce que StepFun appelle l'apprentissage par renforcement issu de retours humains spécifiques à un personnage, ou RLHF. Le RLHF standard forme un modèle à fournir de meilleures réponses en fonction des préférences humaines. La version de StepFun va plus loin en adaptant ce cycle de retour aux personnages spécifiques, ce qui permet au modèle de maintenir des traits de caractère cohérents lors de scénarios de jeu de rôle prolongés ou de service client.
Le modèle prend actuellement en charge le chinois et l'anglais, se connecte via l'API WebSocket sous la chaîne de modèle « step-2.5-realtime », et est accessible via l'API de la plateforme StepFun et une console dédiée en temps réel. Un rapport technique détaillant l'architecture a été publié sur arXiv sous l'identifiant 2605.23463.
Pourquoi la compréhension paralinguistique est importante
Le score de 82,18 de StepAudio 2.5 en compréhension paralinguistique suggère que StepFun a réalisé des progrès réels sur ce problème. Un assistant vocal capable de détecter la frustration dans le ton d’un appelant et de transférer l’appel à un agent humain, ou de ralentir sa parole lorsqu’il perçoit de la confusion, représente un produit fondamentalement différent d’un système qui se contente de traiter les mots avec précision.
Le score de référence pour le scénario automobile de 84,80 suggère une autre application rentable. Les assistants vocaux intégrés aux véhicules doivent gérer des environnements bruyants, interpréter rapidement les commandes et, idéalement, comprendre quand un conducteur semble stressé ou détendu.
