前OpenAI最高技術責任者であるMira Muratiが設立したThinking Machines Labは、「対話モデル」と呼ばれる研究のプレビューを発表し、現在の音声AIが行う一問一答のやり取りを変革しようとしています。同社は、このようなモデルがユーザーの入力を受信しながら即座に返答を生成することで、メッセージを交代で送信するのではなく、電話での会話に近い体験を可能にするとしています。
応答方式を同期に変更します
現在のほとんどのAIモデルのインタラクション方式は固定されており、ユーザーが話しきってからモデルが処理を開始して回答します。Thinking Machinesは、「聞く」と「話す」を同じプロセスで行い、会話がまだ終わっていない段階でモデルが文脈を継続的に理解し、回答を準備できるようにしたいと考えています。
同社はこの技術を「フルデュプレックス」と説明している。これによると、最初の研究モデルであるTML-Interaction-Smallの応答時間は約0.40秒で、自然な人間の会話速度に近く、文中で言及された一部のOpenAIおよびGoogleの類似モデルよりも高速である。
現在もリサーチプレビュー段階です
ただし、この機能は現在、一般公開されている正式な製品ではありません。Thinking Machinesは、現在リリースされているのは研究用プレビュー版であり、一般利用は提供されていないと述べています。
会社が公表したスケジュールに従い、今後数ヶ月のうちに限定的な研究プレビューをリリースし、その後、今年後半にかけて公開範囲を拡大することを目指します。
実際の体験はまだ検証されていません
開示された情報によると、この方向性の重点は遅延を短縮するだけでなく、音声処理プロセスをモデル外部に追加するのではなく、インタラクション機能をモデル自体に組み込むことにあります。この考え方が正しい場合、音声アシスタント、リアルタイムコラボレーション、対話型AI製品の使用方法が変化する可能性があります。
しかし、現在の段階で外部が確認できるのは、主に企業が提供した技術的な説明とベンチマーク結果にとどまります。製品が公開されていないため、実際の使用シーンにおける安定性、中断処理の効果、および全体的な会話体験については、ユーザーが実際にテストしてみるまでさらに評価できません。
