Un laboratorio de IA con sede en Shanghái acaba de avergonzar discretamente a algunos de los nombres más grandes de la tecnología. StepAudio 2.5 Realtime de StepFun, lanzado alrededor del 24 de mayo, dominó los cinco principales benchmarks de IA de voz de las pruebas de abril de 2026, superando a GPT Realtime 1.5 y Gemini Live en el proceso.
El modelo no solo entiende lo que dices, sino también cómo lo dices, interpretando el tono, la emoción y la velocidad del habla de manera que hace que la mayoría de los asistentes de voz competidores suenen como si estuvieran leyendo un guion en un tono monótono.
Los números detrás del ruido
StepAudio 2.5 en tiempo real obtuvo las puntuaciones más altas en todas las categorías de referencia evaluadas. En la evaluación humana, obtuvo una puntuación de 80.41. El rendimiento general en diálogos alcanzó 86.36. La prueba de escenarios automotrices, que mide qué tan bien el modelo maneja la interacción de voz en contextos de conducción, alcanzó 84.80.
La evaluación de preguntas y respuestas habladas, que abarca 11 tareas separadas, obtuvo una puntuación de 79.80. Y la puntuación de comprensión paralingüística, métrica posiblemente la más interesante aquí, alcanzó 82.18.
Para contexto, el modelo anterior, StepAudio 2, ya había llamado la atención con una puntuación de 77,4% en el benchmark MMAU. El salto a 2.5 Realtime representa un avance significativo, no solo un aumento incremental disfrazado con lenguaje de marketing.
Cómo funciona realmente
La arquitectura es lo que la distingue del resto. StepAudio 2.5 Realtime utiliza un diseño unificado de entrada y salida de audio que combina tres capacidades fundamentales en un solo marco: Reconocimiento Automático de Voz (ASR), Síntesis de Voz a Texto (TTS) y procesamiento de diálogo en tiempo real.
Piénsalo así: la mayoría de los sistemas de IA de voz funcionan en etapas. Transcriben tu voz a texto, procesan el texto, generan una respuesta en texto y luego la convierten de nuevo a audio. Cada transferencia introduce latencia y pierde matices. El enfoque de StepFun reduce estos pasos a un solo sistema cohesivo.
La fórmula secreta es lo que StepFun llama el Aprendizaje por Refuerzo a partir de Retroalimentación Humana específico de persona, o RLHF. El RLHF estándar entrena un modelo para dar respuestas mejores basadas en preferencias humanas. La versión de StepFun va más allá al adaptar ese ciclo de retroalimentación a personas específicas, lo que significa que el modelo puede mantener rasgos de carácter consistentes durante escenarios de rol prolongado o servicio al cliente.
El modelo actualmente admite chino e inglés, se conecta mediante la API WebSocket bajo la cadena del modelo ‘step-2.5-realtime,’ y está disponible a través de la API de la plataforma de StepFun y una consola en tiempo real dedicada. Se publicó un informe técnico que detalla la arquitectura en arXiv bajo el identificador 2605.23463.
Por qué importa la comprensión paralingüística
La puntuación de 82.18 de StepAudio 2.5 en comprensión paralingüística sugiere que StepFun ha logrado avances reales en este problema. Un asistente de voz que pueda detectar la frustración en el tono del llamante y derivarlo a un agente humano, o reducir su velocidad de habla cuando percibe confusión, representa un producto fundamentalmente diferente a uno que simplemente procesa palabras con precisión.
La puntuación de referencia del escenario automotriz de 84.80 sugiere otra aplicación rentable. Los asistentes de voz en el automóvil deben manejar entornos ruidosos, interpretar comandos rápidamente y, idealmente, comprender cuándo un conductor suena estresado en comparación con cuando está relajado.
