Thinking Machines Lab представила попередній перегляд інтерактивної моделі ШІ в реальному часі

CoinDesk повідомляє:

Лабораторія Thinking Machines Lab, заснована колишнім головним технічним офіцером OpenAI Мірою Мураті, оголосила про попередній огляд дослідження під назвою «Інтерактивна модель», яке намагається змінити поточний спосіб роботи голосових ІІ — відповідь на запитання. Компанія стверджує, що такі моделі можуть генерувати відповіді одночасно з отриманням вхідних даних користувача, роблячи діалог більш схожим на телефонний розмову, ніж на чергування повідомлень.

Змінити спосіб відповіді на синхронний

Більшість існуючих моделей ШІ мають фіксований спосіб взаємодії: користувач закінчує висловлювання, і лише тоді модель починає обробляти його та відповідати. Thinking Machines бажає поєднати «слухання» та «мовлення» в єдиний процес, дозволяючи моделі неперервно розуміти контекст і підготовлювати відповідь ще до завершення діалогу.

Компанія описує цю технологію як «повнодуплексну». За її даними, час відповіді першої дослідної моделі TML-Interaction-Small становить приблизно 0,40 секунди, що наближається до природної швидкості людської розмови і швидше, ніж у деяких моделей OpenAI та Google, згаданих у тексті.

Наразі це ще попередній огляд дослідження

Проте ця функція наразі не є офіційним продуктом, доступним для загальної публіки. Thinking Machines зазначає, що на цьому етапі випущено дослідницьку попередню версію, яка не доступна для загального використання.

Згідно з розкладом, опублікованим компанією, протягом наступних місяців спочатку буде запущено обмежений попередній огляд досліджень, а потім планується розширити доступність у кінці цього року.

Практичний досвід все ще очікує підтвердження

Згідно з відкритою інформацією, акцент цього напрямку — не лише у скороченні затримки, а й у вбудовуванні інтерактивних можливостей безпосередньо в модель, а не у додаванні процесів обробки голосу поза моделлю. Якщо цей підхід виявиться ефективним, спосіб використання голосових асистентів, реального часу співпраці та діалогових AI-продуктів може змінитися.

Проте на цьому етапі зовнішній світ може бачити лише технічні описи та базові результати, надані компанією. Оскільки продукт ще не доступний, реальна стабільність, ефективність обробки перерв та загальний досвід діалогу можуть бути оцінені лише після реального тестування користувачами.