由前 OpenAI 首席技術官 Mira Murati 創立的 Thinking Machines Lab 公布了一項名為「交互模型」的研究預覽,試圖改變當前語音 AI 一問一答的工作方式。公司稱,這類模型可以在接收用戶輸入的同時生成回覆,讓對話更接近電話交流,而不是輪流發送訊息。
將回應方式改為同步進行
目前大多數 AI 模型的互動方式較為固定:用戶說完後,模型才開始處理並回覆。Thinking Machines 希望將「聽」和「說」整合在同一過程中,讓模型在對話尚未結束時就能持續理解上下文並準備回應。
公司將此技術描述為「全雙工」。根據其說法,首個研究模型 TML-Interaction-Small 的響應時間約為 0.40 秒,接近自然人類對話速度,且快於文中提到的部分 OpenAI 和 Google 同類模型。
目前仍為研究預覽
不過,這項能力目前還不是面向公眾開放的正式產品。Thinking Machines 表示,現階段發布的是研究預覽版本,暫不提供公開使用。
根據公司披露的時間表,未來幾個月將先推出有限範圍的研究預覽,隨後爭取在今年晚些時候擴大開放範圍。
實際體驗仍有待驗證
From the disclosed information, the focus of this direction is not merely on reducing latency, but on integrating interactive capabilities directly into the model itself, rather than adding speech processing workflows outside the model. If this approach proves viable, the way voice assistants, real-time collaboration, and conversational AI products are used may change.
不過,目前外界所能見到的仍主要是公司提供的技術描述與基準結果。由於產品尚未開放,其在真實場景下的穩定性、中斷處理效果以及整體對話體驗,仍需待用戶實際測試後才能進一步評估。
