Lalabas ng Perplexity ang hybrid na lokal-cloud na AI inference system noong July

Binibigyang-diin ng CoinDesk:

Ipinahayag ng Perplexity ang isang bagong tampok sa Computex 2026 sa Taipei, na plano ay ilunsad sa July ang Windows version ng Perplexity Computer. Ang sistema ay awtomatikong magtutukoy kung aling mga bahagi ng AI task ay gagawin sa lokal na device at aling bahagi ay ipapasa sa cloud model, nang walang kailangang manu-manong pagbabago ng mode.

Unang penanahin ang sensitibong nilalaman

Ipinakilala ng CEO ng Perplexity, si Aravind Srinivas, at ng CEO ng Intel, si Chen Liwu, ang solusyong ito. Ipinapakilala ng kumpanya ito bilang hybrid local-server inference orchestration system, na nagtatarget sa pagpapalalim ng privacy, performance, at cost ng computing sa isang parehong proseso.

Sinabi ng Perplexity na ang mga lalaman tulad ng mga financial record, health information, at personal documents ay mas angkop na unang ihuhusga ng isang lightweight model sa device kung kailangan itong panatilihin sa lokal. Ang mga bahaging nangangailangan ng mas malakas na pag-iisip ay ipapadala na lamang sa cloud para sa mas malaking model.

Ayon sa kompanya, ang mga gawain tulad ng pag-summarize ng dokumento, pag-ayos ng pormat ng teksto, at lightweight classification ay maaagawag direktang sa lokal; ang mas kumplikadong pag-iisip ay ipapasa sa server. Ang buong proseso ay awtomatikong magpapalit habang ginagawa ang gawain, upang minimahal ang pagkakaroon ng kamalayan ng user.

Gayunpaman, hindi ito nangangahulugan na binuksan ng Perplexity ang isang offline model na may ganap na kontrol ng user. Ang lokal na komponent ay patuloy na isang kompakto na model na integrado sa app ng Perplexity, at ang cloud na bahagi ay patuloy na tumatakbo sa mga server ng Perplexity, at hindi ito maaaring ituring bilang isang ganap na offline na solusyon.

Ang presyong pambayad ay mahalagang konteksto

Sinabi ni Srinivas sa isang interbyu sa panahon ng Computex na ang layunin ng mga AI system ay dapat ang pagbibigay ng mas mataas na “value per watt” sa bawat user, hindi ang pagpupuno ng lahat ng computing sa mga server at pinakamalalaking model. Binanggit niya na ang ilang kumpanya ay naglalabas ng milyon-milyon dolyar bawat buwan sa computing power.

Naipahayag ng Perplexity na ang kita ng kumpanya ay tumataas mula sa $100 milyon hanggang $500 milyon, samantalang ang bilang ng mga empleyado ay tumataas lamang ng 34%. Sa kontekstong ito, ang pagpapalipat ng ilang pagpapahalagang load sa kompyuter ng user ay direktang makakabawas sa gastos sa cloud computing.

Ito ay isa sa mga pangunahing dahilan kung bakit ang industriya ng AI ay nagpapalakas ng edge inference sa kasalukuyan. Para sa mga negosyo, ang pagpapatakbo sa lokal ay nagpapababa ng gastos sa server; para sa mga user, nangangahulugan ito na ang ilang sensitibong data ay hindi kailangang lumabas sa device.

Ang industriya ay umuunlad patungo sa edge at hybrid model

Sa kasalukuyan, maraming teknolohiya na kumpanya ang nagpapalago ng lokal o hybrid inference. Ipinapalagay ng Apple ang ilang sensitibong proseso sa lokal na chip; ang Foundry Local ng Microsoft ay naging available na noong Abril ng taong ito, na sumusuporta sa lokal na AI inference sa Windows, macOS, at Linux.

Ang NVIDIA ay naglabas din ng RTX Spark sa panahon ng Computex, na nakatuon sa lokal na inference ng malalaking modelo sa mga laptop at desktop. Sa kabilang banda, ang pagkakaiba ng Perplexity ay hindi nasa modelo mismo, kundi sa layer ng scheduling: ang sistema ay tumutukoy sa real-time kung paano hahatiin ang mga gawain sa lokal at sa cloud, hindi nagpapasya ang user sa harap.

Sinabi ng Perplexity na ang tampok na ito ay hindi limitado sa mga chip ng Intel. Bagaman ang live demo ay gumamit ng Intel Core Ultra Series 3 processor, suportado rin ito ng mga processor ng NVIDIA. Sa kasalukuyan, pinatotohanan lamang na una muna itong lalabas sa Windows PC app, at hindi pa inilathala ang petsa ng paglalabas sa iba pang mga platform.