Ipinakilala ng Thinking Machines Lab ang real-time interactive na preview ng AI model

icon币界网
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Ang Thinking Machines Lab, na itinatag ni Mira Murati, dating CTO ng OpenAI, ay nagbahagi ng research preview ng kanilang 'Interactive Model' para sa real-time voice AI interaction. Ang modelong ito, na nakakahandle ng input at output nang sabay-sabay, ay tumutugma sa natural na usapan. Ang TML-Interaction-Small ay sumasagot sa halos 0.40 segundo—mas mabilis kaysa sa ilang model mula sa OpenAI at Google. Ang teknolohiyang ito ay kasalukuyang nasa research preview pero maaaring makalink sa balita tungkol sa real-world assets (RWA) kung itataguyod. Ang pampublikong pag-access ay plano para sa huling bahagi ng taong ito.
Inilathala ng CoinDesk:

Inilah ng Thinking Machines Lab, na itinatag ni Mira Murati, ang dating chief technology officer ng OpenAI, isang pag-aaral na prebyu na tinatawag na “Interactive Model” na naglalayong baguhin ang kasalukuyang paraan ng paggana ng voice AI na isang tanong, isang sagot. Sinasabi ng kumpanya na ang mga modelo na ito ay maaaring magbuo ng sagot habang tinatanggap ang input ng user, na gumagawa ng isang talakayan na mas katulad ng isang tawag sa telepono kaysa sa pagpapalit-litaw ng mga mensahe.

Baguhin ang paraan ng pagtugon sa synchronous

Ang karamihan sa kasalukuyang AI models ay may nakapirming paraan ng interaksyon: ang user ay kumukuha ng salita, tapos ang model ay nagsisimula na magproseso at magbigay ng sagot. Gusto ng Thinking Machines na iisa ang proseso ng “pagsisid” at “pagsasalita,” upang maunawaan at mapaghanda ang sagot ng model habang ang usapan ay hindi pa tapos.

Ipinapaliwanag ng kumpanya ang teknolohiyang ito bilang “full-duplex.” Ayon sa kanila, ang response time ng unang research model, ang TML-Interaction-Small, ay humigit-kumulang 0.40 segundo, na malapit sa natural na bilis ng tao sa pag-uusap, at mas mabilis kaysa sa ilang OpenAI at Google na katulad na model na nabanggit sa artikulo.

Kasalukuyang preview ng pag-aaral

Gayunpaman, ang kakayahang ito ay hindi pa isang opisyal na produkto na available sa publiko. Sinabi ng Thinking Machines na ang ipinapakilala sa kasalukuyan ay isang research preview, at hindi pa available para sa pampublikong paggamit.

Ayon sa iskedyul na inilabas ng kumpanya, ang limitadong paglalathala ng pag-aaral ay mabubukas sa susunod na ilang buwan, kasunod ng pagpapalawak ng sakop sa huli ng taon.

Ang tunay na karanasan ay kailangan pa ng pagpapatotoo

Batay sa mga naiulat na impormasyon, ang pagkakasentro ng direksyong ito ay hindi lamang ang pagpapabilis ng latency, kundi ang pagpapalakas ng interaktibong kakayahan nang direkta sa loob ng modelo, hindi sa labas nito sa pamamagitan ng karagdagang proseso ng pagproseso ng boses. Kung matatagumpay ang ideyang ito, maaaring magbago ang paraan ng paggamit ng voice assistants, real-time collaboration, at conversational AI products.

Gayunpaman, ang mga nakikita ng labas sa kasalukuyan ay pangunahin ang teknikal na deskripsyon at benchmark resulta na ibinigay ng kumpanya. Dahil ang produkto ay hindi pa nabuksan, ang katatagan sa tunay na sitwasyon, epekto sa pagharap sa pagkakainterrupt, at pangkabuuang karanasan sa pakikipag-usap ay kailangan pang masuri matapos magkaroon ng pagsubok mula sa mga user.

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.