Thinking Machines Lab, fundada por Mira Murati, exdirectora técnica de OpenAI, anunció una previsualización de investigación llamada "Interactive Models", que busca transformar el modelo actual de IA de voz basado en preguntas y respuestas. La empresa afirma que estos modelos pueden generar respuestas mientras reciben la entrada del usuario, haciendo que la conversación se parezca más a una llamada telefónica que al intercambio turnado de mensajes.
Cambia el método de respuesta a sincrónico
La mayoría de los modelos de IA actuales tienen una forma de interacción fija: el usuario termina de hablar y luego el modelo comienza a procesar y responder. Thinking Machines desea integrar el "escuchar" y el "hablar" en un mismo proceso, permitiendo que el modelo comprenda continuamente el contexto y se prepare para responder mientras la conversación aún no ha terminado.
La empresa describe esta tecnología como "full-duplex". Según sus afirmaciones, el primer modelo de investigación, TML-Interaction-Small, tiene un tiempo de respuesta de aproximadamente 0.40 segundos, cercano a la velocidad de conversación humana natural y más rápido que algunos modelos similares de OpenAI y Google mencionados en el artículo.
Aún es una previsualización de investigación
Sin embargo, esta funcionalidad aún no es un producto oficial disponible para el público. Thinking Machines indica que, en esta etapa, se está lanzando una versión de previsualización de investigación, sin disponibilidad pública.
Según el cronograma divulgado por la empresa, en los próximos meses se lanzará primero una previsualización de investigación con alcance limitado, seguida de un intento por ampliar el acceso a finales de este año.
La experiencia real aún debe verificarse
Según la información divulgada, el enfoque de esta dirección no solo consiste en reducir la latencia, sino en integrar directamente la capacidad de interacción dentro del modelo mismo, en lugar de añadir procesos de procesamiento de voz externos al modelo. Si esta idea se demuestra válida, la forma de utilizar asistentes de voz, colaboración en tiempo real y productos de IA conversacional podría cambiar.
Sin embargo, en esta etapa, lo que el público externo puede ver sigue siendo principalmente la descripción técnica y los resultados de referencia proporcionados por la empresa. Dado que el producto aún no está disponible, la estabilidad en escenarios reales, el rendimiento en el manejo de interrupciones y la experiencia general de conversación solo podrán evaluarse más adelante tras las pruebas reales de los usuarios.
