A Thinking Machines Lab, fundada pela ex-chefe de tecnologia da OpenAI, Mira Murati, divulgou uma prévia de pesquisa chamada “Interactive Models”, que busca transformar o modelo atual de IA vocal de pergunta e resposta. A empresa afirma que esses modelos podem gerar respostas enquanto recebem entradas do usuário, tornando a conversa mais semelhante a uma ligação telefônica do que ao envio alternado de mensagens.
Mude o método de resposta para síncrono
A maioria dos modelos de IA atuais tem uma interação fixa: o usuário termina de falar e, em seguida, o modelo começa a processar e responder. A Thinking Machines deseja integrar o “ouvir” e o “falar” em um único processo, permitindo que o modelo compreenda continuamente o contexto e se prepare para responder enquanto a conversa ainda está em andamento.
A empresa descreve essa tecnologia como "full-duplex". Segundo ela, o primeiro modelo de pesquisa, TML-Interaction-Small, tem um tempo de resposta de aproximadamente 0,40 segundos, próximo à velocidade de conversação humana natural e mais rápido que alguns modelos similares da OpenAI e Google mencionados no texto.
Ainda está em pré-visualização de pesquisa
No entanto, essa funcionalidade ainda não é um produto oficial disponível ao público. A Thinking Machines afirmou que, neste estágio, está lançando uma versão de pré-visualização de pesquisa, sem disponibilizar uso público.
De acordo com o cronograma divulgado pela empresa, nos próximos meses será lançada inicialmente uma prévia de pesquisa limitada, seguida pelo objetivo de ampliar o acesso ainda este ano.
A experiência real ainda precisa ser verificada
A partir das informações divulgadas, o foco desta abordagem não é apenas reduzir a latência, mas integrar diretamente a capacidade de interação no modelo, em vez de adicionar processos de processamento de voz externamente ao modelo. Se essa ideia se confirmar, a forma de uso de assistentes de voz, colaboração em tempo real e produtos de IA conversacional pode mudar.
No entanto, no estágio atual, o que o público externo pode ver são principalmente as descrições técnicas e os resultados de referência fornecidos pela empresa. Como o produto ainda não está disponível, a estabilidade em cenários reais, o desempenho no tratamento de interrupções e a experiência geral de conversa só poderão ser avaliadas após os usuários realizarem testes práticos.
