Kung talagang maging pangunahing paraan ng interaksyon ang boses, ang akustikong kapaligiran ng opisina ay magiging isang bagay na kailangang mabuting disenyo.
May-akda at pinagmulan: Lao Ban Zhu, Cyber Last Train
Kamakailan ay naglabas ang WSJ ng isang artikulo, kung saan isinalin ang pamagat bilang “Ang pagketik ay pinapalitan ng pagwhisper, at mas nakakairita kaysa sa inyong inisip.”

Tinindigan ng TechCrunch ang paksa na ito. Isinulat ng reporter na si Anthony Ha ang isang maikling komento, kung saan sinipi niya ang isang pananaw ng isang VC na nagsasabing kapag dumadalo siya sa mga opisina ng mga startup sa Silicon Valley, parang pumasok siya sa isang mataas-antas na call center.
Dahil sa lalong lumalaking bilang ng mga tao sa opisina na nagmumura sa harap ng computer.
Hindi tawag sa telepono, hindi pagpupulong, hindi usap sa mga kasamahan. Isang tao na nakaupo sa kanyang mesa, babaing boses, nag-uusap sa screen. Minsan ay tungkol sa email, minsan ay tungkol sa code, minsan ay tungkol sa Slack message. Minsan ay may ingay sa keyboard, ngunit mas maraming beses, ang ibabaw ng mesa ay puno ng maliliit na boses.
Kung ipapakita ang larawang ito sa limang taon na ang nakalipas, malamang ito ay itinuturing na babala sa isang uri ng kalagayang pangkaisipan. Ngunit sa ilang startup sa Silicon Valley noong 2026, nagsisimula itong maging karaniwan.
Ang nagpapagalaw sa bagay na ito ay isang uri ng bagong kasangkapan. Ang pinakakatawan ay ang Wispr Flow.
Hindi ito tradisyonal na speech-to-text. Sa nakaraan, ang speech dictation ay kung ano ang sinasabi mo, iyon ang isusulat nito—kailangan mong sabihin nang malinaw ang bawat bantas, at puno ng mga maling salita; ang oras na ginugol para i-edit ang isang talata ay mas mahaba kaysa sa pagtype. Ibang-iba ang Wispr Flow. Gumagamit ito ng AI upang maunawaan ang konteksto ng iyong pagsasalita, awtomatikong tinatanggal ang mga salitang pang-ugali tulad ng “eh” o “yung,” awtomatikong idinadagdag ang mga bantas, at binabago ang format batay sa app kung saan ka nagsasalita.
Kapag sinasabi mo sa Gmail, binibigay nito sa iyo ang isang maayos na e-mail. Kapag sinasabi mo sa Slack, binibigay nito ang isang maikling mensahe. Kahit ang mga teknikal na escenario sa produkto ay nakalista, tulad ng pagsasalita ng code sa VS Code o Cursor, at kayang makilala ang camel case at snake case.
May produkto na nag-uulat ng latency na maaaring mababa hanggang sa halos 500 milyosekundo. Ang opisyal na pagpapahayag ay naglalayong maksimong bilis ng pagsasalita na halos 220 WPM (words per minute), samantalang karaniwan sa mga kasanayang magtype ay 80 hanggang 100 WPM.
Ang pangunahing bagay ay, tumatakbo ito sa system level. Maaaring gamitin sa Mac, Windows, at mobile. Anumang app, pindutin lang ang shortcut key para magsimula sa pagsasalita. Labing-sampu dolyar bawat buwan.
Kaya't lalong dumadami ang mga tao na nagsusulat gamit ang kanilang bibig.

Ayon sa mga gumagamit na kinuha ng WSJ, may ilan na bumili ng headset para sa laro upang magsalita sa AI, dahil ang mikropono ng headset para sa laro ay may maikling sakop ng pagkuha ng tunog, kaya ito ay angkop para sa pagmumura nang mahina nang hindi marinig ng mga nasa tabi. May ilan ring bumili ng programmable foot pedal, kung saan ang isang pagpihit sa paa ang sapat upang i-activate ang Wispr, nang hindi kailangang gamitin ang kamay para i-click ang shortcut key. Mayroon ding nag-setup ng gooseneck microphone sa kanilang mesa, na ikinabit sa ilang sentimetro mula sa kanilang bibig, kaya sapat na ang paggamit ng air voice.
Isipin mo ang isang sitwasyon. Isang bukas na opisina, dalawampu't maraming tao, bawat isa ay may isang screen sa harap nila, may headset sa ulo, at isang mic na may paa sa labi, lahat ay nagsasalita nang mahina.
Totoo, parang call center. Pero mas tahimik lang.
Ang pagkakasulat ni TechCrunch ay nagbanggit ng dalawang partikular na tao.
Isa sa mga co-founder ng Gusto ay si Edward Kim. Ang Gusto ay isang American company na nag-aalok ng SaaS para sa payroll at human resources ng mga negosyo, at malaki ito. Sabi ni Kim, ngayon ay kailangan niya lang mag-type kapag kailangan, at sa ibang oras ay gumagamit siya ng boses lamang. Sinabi niya sa kanyang team na ang hinaharap na tanggapan ay magiging mas parang sales department.
Ngunit kilala rin ni Kim na ang pag-uusap sa harap ng computer sa opisina ay “medyo nakakahiya.”
Ang isa pa ay ang AI entrepreneur na si Mollie Amkraut Mueller. Naging karanasan niya na magsalita nang mahina habang nagtatrabaho sa harap ng computer sa gabi, at hindi na makatanggap ang asawa niya. Ngayon, ang kanilang late-night work routine ay naging pagkakahiwalay sa pwesto, o ang isang tao ay umiiwan sa study room.
Hindi karaniwan na isang teknolohikal na produkto ay magbabago ng paraan ng pag-uugali ng isang mag-asawa sa gabi.
Hindi nag-aalala si Tanay Kothari, ang tagapagtatag ng Wispr, sa mga kakaibang sitwasyong ito. Sabi niya sa isang interbyu, ang lahat ng ito ay magiging normal sa wakas, tulad ng pagtingin sa mga cellphone noong una. Noong mga dekada na iyon, ang pagmamasid sa isang cellphone sa publiko ay itinuturing na hindi maayos. Ngayon, hindi na ito kakaibang makita ng marami.
Kahit pag-usapan ang computer, pareho ito, iniisip niya na kailangan lang ng oras.
Seryoso lang, maaaring tama siya. Ngunit ang intermediate na panahon ay maaaring lubos na magulo.
Dahil sa isang tao na nagketik sa isang bukas na opisina, hindi makikinig ang iba. Ngunit kung isang tao ay maliit na nagsasalita sa isang bukas na opisina, kahit pa sa pinakamababang antas, makikinig pa rin ang mga nasa tabi ng kanyang malambot na mumurmo. Isang o dalawang tao lang ay mabuti, ngunit kung sampu-sampu ang nagmumumurmo nang sabay-sabay, magiging napakakakaibang akustikal na kapaligiran.

Ayon sa WSJ, may mga tao na nagsisimula nang magdama ng noise-cancelling headphones upang i-block ang tunog ng mga kasamahan na nagsasalita sa kanilang computer.
Isipin ang larawang ito. Ang A ay nagmumungkahi sa computer habang may suot na gaming headset, habang ang B ay gumagamit ng noise-cancelling headset upang i-block ang boses ng A. Pareho sila ay nakaupo sa magkatabing upuan, hindi makakakita ang isa sa kabilang bahagi ng kanilang mga tenga, ngunit pareho sila ay may suot na headset na may iba’t ibang layunin.
Dahil sa mas malalim na bagay na ito ay tinutukoy kaysa sa isang tool para sa efficiency, ito ang dahilan kung bakit ito ay worth discussing.
Ang pangunahing paraan ng interaksyon sa pangkalahatang kompyutasyon ay nagsagawa ng ilang malalaking alon. Ang graphical interface at mouse ay nagtago sa command line sa likod ng karaniwang gumagamit, na nagpapahintulot sa mga taong hindi nakakaalam ng code na gamitin ang computer. Ang touch screen ay nagpalit sa mga pindutan, at ang iPhone ay nagbago sa telepono sa isang piraso ng salamin. Bawat pagbabago sa paraan ng interaksyon ay hindi lamang "mas madali gamitin"—ito ay nagbabago sa pisikal na ugnayan mo sa device, at sa huli, ang espasyal na ugnayan mo sa mga tao palibot mo.
Ang keyboard, screen, at personal workstation ay nagpapalakas sa mapayapang posisyon sa opisina, kung saan bawat tao ay nakatingin sa isang screen, may kamay sa keyboard, at hindi nagkakaroon ng pagkakaabala sa isa’t isa. Ang touchscreen ay nagpapahintulot sa mga tao na magtrabaho sa sofa, sa kama, o sa metro, at ang hangganan ng opisina ay naging malabo.
Kung talagang maging pangunahing paraan ng interaksyon ang boses, ang akustikong kapaligiran ng opisina ay magiging isang bagay na kailangang mabuting disenyo. Ang mga kabin na may pag-iisolate sa tunog, mga personal na boses na workstation, at mga akustikong zona—mga konsepto na ngayon ay tila nadudulot—ay maaaring maging standard sa disenyo ng puwang sa opisina, tulad ng kung saan ngayon ay mayroong bawat opisina na may meeting room.
Hindi ibig sabihin nito na lahat ay magiging open sa paggamit ng boses, kundi kailangan ng mga espasyo sa paggawa ng opsyon para sa pag-input ng boses. Ang mga sosyal na etiketa ay magiging nagbabago rin. Kailan maaari mong magsalita sa computer? Kailan dapat bumalik sa pagket? Masasabing hindi maayos ba ang pagmumura sa iyong laptop sa isang kapehan? Walang sagot ang mga tanong na ito ngayon, ngunit sa loob ng dalawa o tatlong taon ay maaaring magkaroon na ng napagkasunduang patakaran.
Tulad ng etiketa sa pagtawag sa publiko. Wala namang tinuruan, ngunit alam na ng lahat.
Ang reporter ng TechCrunch, Anthony Ha, ay nag-iwan ng isang pahayag na may personal na emosyon sa dulo ng artikulo. Sinabi niya na dati siyang nasaktan dahil sa kanyang workstation ay inilipat sa tabi ng sales department, kaya nang makita niya ang sinabi ni Edward Kim na ang mga darating na opisina ay magiging parang sales department, ang reaksyon niya ay, Oh no.
Ang isang trend na nagpapahintulot sa isang tech journalist na isulat ang «Oh no» sa isang opisyal na ulat, ay marahil dapat bigyan ng pansin.
