Компания Thinking Machines Lab, основанная бывшим главным техническим директором OpenAI Мирой Мурати, объявила о предварительном обзоре исследования под названием «Интерактивная модель», целью которого является изменение текущего принципа работы голосового ИИ — ответа на один вопрос за раз. Компания утверждает, что такие модели могут генерировать ответы одновременно с получением ввода пользователя, делая диалог более похожим на телефонный разговор, а не на поочередную отправку сообщений.
Способ ответа изменен на синхронный
Существующие большинство моделей ИИ имеют довольно жесткий способ взаимодействия: пользователь заканчивает речь, и только тогда модель начинает обрабатывать и отвечать. Thinking Machines хочет объединить процессы «слушания» и «говорения», позволяя модели непрерывно понимать контекст и готовить ответ еще до завершения диалога.
Компания описывает эту технологию как «полносимметричную». Согласно её данным, время отклика первой исследовательской модели TML-Interaction-Small составляет около 0,40 секунды, что приближается к скорости естественного человеческого диалога и быстрее, чем у некоторых аналогичных моделей OpenAI и Google, упомянутых в статье.
В настоящее время это предварительный обзор исследования
Однако эта функция пока не является официальным продуктом, доступным для широкой публики. Thinking Machines сообщила, что на данном этапе выпускается исследовательская предварительная версия, которая не предназначена для общего использования.
Согласно расписанию, опубликованному компанией, в ближайшие месяцы будет запущен ограниченный исследовательский превью, после чего планируется расширить доступ к концу этого года.
Фактический опыт все еще предстоит проверить
Из раскрытой информации видно, что акцент в этом направлении направлен не только на сокращение задержки, но и на интеграцию интерактивных возможностей непосредственно в модель, а не на добавление процессов обработки речи поверх модели. Если эта концепция окажется успешной, способ использования голосовых помощников, систем реального времени и диалоговых ИИ-продуктов может измениться.
Однако на текущем этапе внешние наблюдатели могут видеть в основном технические описания и базовые результаты, предоставленные компанией. Поскольку продукт еще не доступен, стабильность в реальных условиях, эффективность обработки прерываний и общий опыт диалога можно будет оценить только после реального тестирования пользователями.
