Inilah ng Thinking Machines Lab, na itinatag ni Mira Murati, ang dating chief technology officer ng OpenAI, isang pag-aaral na prebyu na tinatawag na “Interactive Model” na naglalayong baguhin ang kasalukuyang paraan ng paggana ng voice AI na isang tanong, isang sagot. Sinasabi ng kumpanya na ang mga modelo na ito ay maaaring magbuo ng sagot habang tinatanggap ang input ng user, na gumagawa ng isang talakayan na mas katulad ng isang tawag sa telepono kaysa sa pagpapalit-litaw ng mga mensahe.
Baguhin ang paraan ng pagtugon sa synchronous
Ang karamihan sa kasalukuyang AI models ay may nakapirming paraan ng interaksyon: ang user ay kumukuha ng salita, tapos ang model ay nagsisimula na magproseso at magbigay ng sagot. Gusto ng Thinking Machines na iisa ang proseso ng “pagsisid” at “pagsasalita,” upang maunawaan at mapaghanda ang sagot ng model habang ang usapan ay hindi pa tapos.
Ipinapaliwanag ng kumpanya ang teknolohiyang ito bilang “full-duplex.” Ayon sa kanila, ang response time ng unang research model, ang TML-Interaction-Small, ay humigit-kumulang 0.40 segundo, na malapit sa natural na bilis ng tao sa pag-uusap, at mas mabilis kaysa sa ilang OpenAI at Google na katulad na model na nabanggit sa artikulo.
Kasalukuyang preview ng pag-aaral
Gayunpaman, ang kakayahang ito ay hindi pa isang opisyal na produkto na available sa publiko. Sinabi ng Thinking Machines na ang ipinapakilala sa kasalukuyan ay isang research preview, at hindi pa available para sa pampublikong paggamit.
Ayon sa iskedyul na inilabas ng kumpanya, ang limitadong paglalathala ng pag-aaral ay mabubukas sa susunod na ilang buwan, kasunod ng pagpapalawak ng sakop sa huli ng taon.
Ang tunay na karanasan ay kailangan pa ng pagpapatotoo
Batay sa mga naiulat na impormasyon, ang pagkakasentro ng direksyong ito ay hindi lamang ang pagpapabilis ng latency, kundi ang pagpapalakas ng interaktibong kakayahan nang direkta sa loob ng modelo, hindi sa labas nito sa pamamagitan ng karagdagang proseso ng pagproseso ng boses. Kung matatagumpay ang ideyang ito, maaaring magbago ang paraan ng paggamit ng voice assistants, real-time collaboration, at conversational AI products.
Gayunpaman, ang mga nakikita ng labas sa kasalukuyan ay pangunahin ang teknikal na deskripsyon at benchmark resulta na ibinigay ng kumpanya. Dahil ang produkto ay hindi pa nabuksan, ang katatagan sa tunay na sitwasyon, epekto sa pagharap sa pagkakainterrupt, at pangkabuuang karanasan sa pakikipag-usap ay kailangan pang masuri matapos magkaroon ng pagsubok mula sa mga user.
