Thinking Machines Lab, fondée par Mira Murati, ancien chef technologue d'OpenAI, a dévoilé une prévisualisation de recherche intitulée « Interactive Models », visant à transformer le fonctionnement actuel des IA vocales basé sur des échanges en question-réponse. L'entreprise affirme que ces modèles peuvent générer des réponses tout en recevant les entrées de l'utilisateur, rendant la conversation plus proche d'un appel téléphonique que d'un échange par messages alternés.
Le mode de réponse est désormais synchrone.
La plupart des modèles d'IA actuels ont un mode d'interaction rigide : l'utilisateur termine sa phrase, puis le modèle commence à traiter et à répondre. Thinking Machines souhaite intégrer l'« écoute » et la « parole » dans un même processus, permettant au modèle de comprendre continuellement le contexte et de préparer sa réponse pendant que la conversation est encore en cours.
L'entreprise décrit cette technologie comme « full-duplex ». Selon elle, le temps de réponse du premier modèle de recherche, TML-Interaction-Small, est d'environ 0,40 seconde, ce qui approche la vitesse d'une conversation humaine naturelle et est plus rapide que certains modèles similaires d'OpenAI et de Google mentionnés dans l'article.
Actuellement en prévisualisation de recherche
Cependant, cette fonctionnalité n'est pas encore un produit officiel ouvert au public. Thinking Machines indique que la version actuellement publiée est une prévisualisation de recherche et n'est pas disponible pour une utilisation publique.
Selon le calendrier divulgué par l'entreprise, une prévisualisation de recherche limitée sera d'abord lancée au cours des prochains mois, suivie d'une extension de l'accès prévue pour la fin de cette année.
L'expérience réelle reste à vérifier
D'après les informations divulguées, l'accent de cette approche ne se limite pas à réduire la latence, mais vise à intégrer directement les capacités d'interaction au sein du modèle lui-même, plutôt que d'ajouter des processus de traitement vocal en externe. Si cette idée s'avère valide, la manière d'utiliser les assistants vocaux, la collaboration en temps réel et les produits d'IA conversationnelle pourrait changer.
Cependant, à ce stade, ce que le public peut voir reste principalement les descriptions techniques et les résultats de référence fournis par l'entreprise. Étant donné que le produit n'est pas encore ouvert, la stabilité en conditions réelles, l'efficacité de la gestion des interruptions et l'expérience conversationnelle globale ne pourront être évaluées avec précision qu'après des tests effectifs par les utilisateurs.
