Ang papel ni Timnit Gebru noong 2020 ay naghula ng mga malalaking panganib sa AI na ngayon ay napatotohanan

Kung iuwi ang oras patungo sa taong 2020, ang pangunahing paksa ng diskusyon ng karamihan sa mga propesyonal sa AI ay kung gaano kalakas ang GPT-3.

Noon, ang generative AI ay hindi pa naging sentro ng buong mundo, ang ChatGPT ay hindi pa ipinakilala hanggang dalawang taon pa, at ang malalaking modelo ay hindi pa nagdulot ng kamangha-manghang alon ng pag-invest na nakikita natin ngayon. Gayunpaman, sa taong iyon, isang pinakamataas na researcher ng Google ay nagsabwatan ng malakas na pagkakaibigan sa kanyang kumpanya dahil sa isang papel na hindi pa nai-publish, at sa huli ay nawalan ng trabaho.

Noong panahong iyon, marami ang naniniwala na ito ay isa lang pangalawang pagkakataon ng Silicon Valley tungkol sa pagpapahalaga sa pagpapatakbo ng trabaho, akademikong pagpapahayag, at kultura ng korporasyon; ngunit ngayon, kapag titingin muli, nalalaman ng mga tao na ang mga babala sa papel ay lahat ay naging totoo sa realidad.

Ang nagkakaroon ng pagkakawala ng trabaho ay isa sa mga pinakamalakas na impluwensya sa larangan ng etika ng AI—Timnit Gebru.

Etika ng AI

Isang pagpapalabas na nagdulot ng pagbabago sa AI community

Noong Disyembre 2020, inilabas ni Timnit Gebru ang isang mensahe sa social media na siya ay inalis ng Google.

Agad na nagsabog ang mensahe sa buong larangan ng AI research. Dahil si Gebru ay hindi isang karaniwang researcher noong panahong iyon, kundi isang co-lead ng Ethical AI Team ng Google at isa sa mga kilalang scholar sa pandaigdigang pag-aaral tungkol sa pagkakapantay-pantay ng AI at algorithmic bias.

Si Gebru, na ipinanganak sa Ethiopia, ay nakapokus sa mahabang panahon sa mga isyu ng rasial na bias, gender discrimination, at social equity sa AI. Bago sumali sa Google, ay nagsagawa siya ng pananaliksik sa Stanford University. Noong 2018, ang isang pag-aaral tungkol sa algorithmic bias na kanyang naging bahagi sa pagpapalabas, ay itinuturing ng marami bilang mahalagang turning point sa pag-aaral ng fairness sa AI. Sa parehong taon, tinanggap siya ng Google at ipinakita nang malakas ang pagpapahalaga ng kompanya sa “Responsible AI”.

Ngunit dalawang taon lamang pagkatapos, nagkaron ng pagkakahiwalay ang parehong panig.

Noong panahong iyon, ang opisyal na pahayag ng Google ay ang pagpapahintulot ni Gebru, ngunit ibinigay ni Gebru ang ganap na iba’t ibang bersyon: sinabi niya na natanggap niya ang e-mail mula sa kumpanya habang siya ay nasa bakasyon, at binigyan siya ng abiso na agad na magiging epektibo ang kanyang pagtatanggal, at agad na isinara ang lahat ng mga pribilehiyo sa loob na sistema at access sa email.

Sa kanyang pananaw, ito ay isang walang duda na pagpapabaya.

Pagkatapos, higit sa 4,000 na empleyado ng Google at mga eksperto sa industriya ang nag-sign ng liham-pampubliko na nagtatanong sa paraan ng pagtrato ng kompanya at humiling na muling ipagkaloob ang posisyon kay Gebru—at ang lahat ng ito ay nagsimula sa isang akademikong papel na may 14 na pahina lamang.

Isang 14-pahinang papel ang nagdulot ng kontrobersiya

Ang papel na ito ay may pamagat na “On the Dangers of Stochastic Parrots,” na may mga may-akda kabilang si Timnit Gebru, si Emily Bender, isang propesor ng linguistics sa University of Washington, at dalawang iba pang mga mananaliksik, at nakakakuha na ng higit sa 14,000 na pag- cite.

Pagkatapos, ang pangalan na “Random Parrot” ay naging malawakang kilala. (Link ng papel: https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf)

Ang papel ay nagtuturo na ang mga malalaking modelo sa wika ay batay sa mga statistical pattern upang muling ipakita ang mga pattern ng wika: kaya nilang lumikha ng mga teksto na kumikilos, likas, at kahit may lohika, ngunit hindi talaga nila nauunawaan ang kahulugan ng wika—parang isang parrot na natutunan na kopyahin ang pagsasalita ng tao, tila matalino, ngunit ang ganitong pagkopya ay batay lamang sa malaking dami ng teksto sa internet. At ang internet mismo ay puno ng bias, diskriminasyon, at mga nilalaman ng paghahatred. Kaya, malamang na matututo ang mga malalaking modelo sa mga problema na ito at patuloy na pataasin ang mga ito habang lumilikha ng nilalaman.

Dapat mong alamin, iyon ay 2020, nang ang GPT-3 ay kailangan lang ipaglaban, ang ChatGPT ay hindi pa umiral, at ang paglaki ng malalaking modelo ay hindi pa nagsimula, ngunit ang papel na ito ay nangunguna na sa paghuhula sa isa sa mga pinakamalaking problema ng industriya ngayon.

Pagkatapos isumite ang papel sa pinakamataas na konperensya sa etika ng AI, hingi ng pamamahala ng Google na tarikin ang papel o alisin ang pangalan ng mga siyentipiko ng Google. Tinanggihan ni Gebru ang hiling, at hingi niya na ipaliwanag ng kompanya ang partikular na dahilan, at nais niya na magkaroon ng karagdagang talakayan sa pagitan ng dalawa.

Sambil noon, nagpadala rin siya ng isang malakas na e-mail sa isang grupo ng mga empleyado ng Google.

Sa email, pinagtanto ni Gebru ang kakulangan ng Google sa mga aktwal na hakbang para sa pagpapalawak ng paghingga sa mga minorya at paglutas ng mga hindi pagkakapantay-pantay sa loob ng kumpanya. Isinulat niya: “Kapag umumpisa ka na magsalita para sa mga nasa kahinaan, lalong masasama ang iyong kalagayan. Magiging hindi komportable ang iba pang mga lider.” Binigkas din niya na kung ang kumpanya ay hindi pa rin makapagpaliwanag kung bakit tinanggal ang papel, pipili siya na umalis sa tamang panahon.

Lumampas sa kaniyang inaasahan ang pag-unlad ng mga pangyayari. Sinabi ni Gebru na sumagot agad ang Google na hindi sila makakatugon sa kaniyang mga hiling at direktang tinanggap ang kaniyang “pagpapahinto,” at agad na inalis ang lahat ng kaniyang mga pagsisilbi.

Sa panahong iyon, agad itong naging isa sa pinakamalalim na pakikibaka sa larangan ng AI sa buong mundo.

Ang mga pananaw na dating tila radikal noong unang panahon ay naging katotohanan na ngayon

Hindi ang pagpapalayas ang nagpapatuloy na pinag-uusapan sa pangyayaring ito, kundi ang nilalaman ng papel—dahil sa pagtingin sa nakaraan ngayon, halos bawat pag-aalala na isinampa nito ay naging totoong problema na ngayon sa industriya ng AI.

(1) Unang babala: Ang modelo ay “magsasalita nang walang katotohanan”

Noong 2020, ipinakilala ang GPT-3. Naiinggit ang mga tao sa kakayahan ng modelo na magbuo ng teksto, ngunit kaunti lamang ang seryosong pag-uusap tungkol sa kapanatagan nito.

Ang Gebru at Bender ay nagtuturo: Habang lumalaki ang laki ng modelo, mas madaling akalain ng mga tao na ang pagkakapahayag na maluwag ay katumbas ng tunay na pag-unawa. Ang mga modelo ay tila nag-iisip, ngunit sa katotohanan ay nagpapalaya lamang ng susunod na pinakamalaking posibilidad ng salita, kaya't magkakaroon sila ng pagkakataong magbuo ng impormasyon na tila makatotohanan ngunit ganap na mali.

At ngayon, ang problema ay may pangalan na kilala ng lahat: AI hallucination. Kahit sa ChatGPT, Gemini, Claude, o iba pang advanced na model, ang problema ng hallucination ay patuloy pa ring hindi lubos na nalulutas.

Sa isang paraan, ang papel ay naging tumpak na nakabatid nito bago magiging paborito sa industriya ang “illusion”.

(2) Ikalawang babala: Ang pagkamaliit ay hindi magtatapos, kundi lalalim

Ang papel ay nagtuturo rin na ang internet mismo ay hindi isang neutral na pinagkukunan ng data, at ang mga data para sa pagtuturo ay likas na naglalaman ng iba’t ibang uri ng diskriminasyon batay sa lahi, kasarian, kultura, at rehiyon. Ang mga modelo ay hindi lamang matututo ng mga bias na ito, kundi maaari ring palakasin ang mga ito dahil sa mga mekanismo ng pag-optimize.

Pagkatapos, iba’t ibang praktikal na problema ang nagpatotoo sa pag-aalala na ito:

Subukan ng Amazon ang paggamit ng AI para filtarin ang mga resume ng mga aplikante, ngunit ang sistema ay awtomatikong bumaba sa puntos ng mga resume na naglalaman ng mga keyword tulad ng “women”.

Ang isang sistema ng pagtataya ng panganib sa kalusugan na ginagamit ng maraming malalaking ospital sa Amerika ay natuklasang nagbaba nang matagal ng pangangailangan sa kalusugan ng mga Black na pasyente.

Ang Apple Card ay nagdulot din ng pansin mula sa mga regulador dahil sa mas mababang credit limit na ibinibigay sa mga babae kumpara sa mga lalaki.

Nagpapakita ang mga kaso na ito na ang algoritmo ay hindi awtomatikong nagtataguyod ng katarungan; sa halip, maaari itong magpapatibay sa mga hindi pagkakapantay-pantay sa realidad sa mas nakatagong paraan.

(3) Ikatlong babala: Ang pagkakasunog ng enerhiya ng AI ay magiging bagong problema

Noong 2020, ang gastos sa computing power ay hindi pa gaanong pinapansin kaysa ngayon, ngunit ang papel na iyon ay nagsimula nang talakayin ang epekto sa kapaligiran ng pag-train ng napakalaking modelo. Ayon sa mga siyentipiko, ang carbon emissions na nagmumula sa pag-train ng isang malaking language model ay katumbas ng kabuuang emissions ng limang kotse sa buong buhay nito—noong panahong iyon, ang pahayag na ito ay itinuturing ng marami bilang sobrang pesimista.

Gayunpaman, habang ang pagbuo ng infrastruktura para sa AI ay pumasok sa isang yugto ng arms race, agad na lumabas ang mga problema: Ayon sa mga publikong data na inilabas ng Google, tumataas ang greenhouse gas emissions ng kumpanya ng 48% noong 2024 kumpara sa 2019; samantala, tumataas din ng halos 29% ang Microsoft sa parehong panahon. Parehong kumpanya ay malinaw na isinasaad na ang AI data centers at infrastruktura ng computing ay isa sa mga pangunahing dahilan.

May ilang kakaibang katotohanan na ang mga malalaking teknolohiya ay nagpapahayag ng mga layunin para sa carbon neutrality ilang taon na ang nakalipas.

(4) Ikaapat na babala: Walang tunay na nakakaalam kung ano ang nasa training data

Sa pananaw ng marami, ang pagtrato ng data ay tila isang teknikal na problema lamang. Ngunit naniniwala si Gebru na habang lumalaki ang laki ng data, ang kompletong pagsusuri sa mga data para sa pagtrato ay magiging halos imposible.

Muling napatunayan ang kanyang pananaw: noong 2023, natuklasan ng mga mananaliksik ang malaking bilang ng mga larawan ng pang-aabuso sa mga bata sa dataset na LAION-5B, na karaniwang ginagamit para sa pag-train ng mga modelo ng pag-generate ng imahe, kabilang ang Stable Diffusion.

Hindi nakakagulat na marami sa mga developer ay hindi alam ang pagkakaroon ng mga ito. Ibig sabihin, kahit ang mga developer ng modelo mismo, ay hindi sigurado kung ano talaga ang “kinakain” ng modelo—at ito ay isa sa mga unang tanong na itinakda ng papel.

(5) Ikalimang babala: Ang internet ay magiging paulit-ulit na puno ng AI-generated na mga nilalaman

Sa pananaw ng Google, maaaring ito ang pinakamasensitibong bahagi ng papel. Naniniwala si Gebru at Bender na ang pag-unlad ng malalaking modelo ay hahantong sa pagkonsentrasyon ng kapangyarihan sa pagpapahayag ng wika at kultura sa ilang kaunting malalaking teknolohiya. Dahil simple lang: ang pag-train ng sobrang malalaking modelo ay nangangailangan ng napakaraming pondo, computing power, at mga yunit ng data, at kaunti lang ang mga kumpanya na may kakayahang makilahok sa kompetisyon.

Sa paglipas ng panahon, ang pangunahing boses sa internet ay magiging paulit-ulit na isang statistical average na itinuturo ng ilang mga kumpanya, at ipapalaganap sa buong mundo bilang isang “neutral na assistant.” Samantala, ang mga wika at kultura na may maliit na bahagdan sa training data ay magiging mas marginalisado.

Mas serio pa, ang problema ay patuloy na lumalalim kapag ang mga nilalang ng AI ay bumabalik sa internet at naging bahagi ng susunod na set ng training data—ito ang tinatawag ng mga siyentipiko ngayon bilang “model collapse.”

Isang pag-aaral noong 2024 ay natuklasan na ang halos 57% ng mga bagong nilalaman sa Internet sa Ingles ay AI-generated o AI-assisted; habang ang mga pag-aaral sa mga wika na may kaunting yaman ay nagpakita na ang kalidad ng pagsasalin ng ilang wika ay nagsimulang bumaba dahil sa pagdami ng mga training data na galing sa AI-generated na nilalaman.

Sa madaling salita, hindi lamang hinulaan ng papel na ito ang “model collapse” phenomenon, kundi tinukoy nito ang mekanismo nito bago pa ito opisyal na ipinakilala.

Pagkatapos umalis sa Google, pumili siya na patuloy ang pag-aaral

Pagkatapos ng pangyayari noong unang panahon, marami ang naglarawan kay Gebru bilang “kaaway ng AI”. Sa katotohanan, hindi ito totoo; hindi siya nag-advocate para ipigil ang pag-unlad ng AI. Mula sa simula hanggang sa wakas, ang kanyang pinagtatanungan ay isang iba pang bagay:

Sino nga ba ang nagdedesisyon sa direksyon ng AI?

Sa kanyang pananaw, ang mga siyentipiko at pamamahala na nagpapalago sa malalaking modelo ay karaniwang may magkakatulad na background, naglilingkod sa magkakatulad na mga pangangailangan sa negosyo, at hinuhubog ng magkakatulad na presyur sa kompetisyon. Sa ganitong sistema ng insentibo, ang pagpapalabas ng produkto nang mas mabilis, pagpapalawak ng bilang ng mga gumagamit nang mas mabilis, at pagtatamo ng mas mabilis na kalaban sa merkado ay karaniwang may mas mataas na prioridad kaysa sa mga isyu tungkol sa kaligtasan, katarungan, at etika.

At ang lahat ng nagtatangkang pigilan ang proseso na ito ay maaaring ituring na mga nagpapalala. Ang kakaibang bahagi ay ang Gebru ay nagsampa ng ideyang ito sa loob ng Google, at sa pamamagitan ng pagpapabaya sa kanya, ginawa ng Google ang ideyang ito na may pinakadramatikong realong pagpapatotoo.

Mas nakakalungkot pa, agad ring inalis si Margaret Mitchell, na kaukolang tagapamahala ng ethical AI team, pagkatapos ng insidente—sa loob ng lang 90 araw, ang dating proud na ethical AI team ng Google ay halos napasailalim.

Pagkatapos umalis sa Google, itinatag ni Gebru noong 2021 ang Distributed AI Research Institute (DAIR). Sa pagkakaiba sa mga malalaking teknolohiyang kumpanya, ang institusyong ito ay naghahangad na magkaroon ng pag-aaral sa AI na labas sa mga komersyal na interes, at ang layunin nito ay direkta: pag-aaral ng mga isyu na hindi kaya o ayaw harapin ng mga pangunahing teknolohiyang kumpanya. Sa mga nakaraang taon, patuloy na tinutugon ng DAIR ang mga paksa tungkol sa pinagmulan ng data, katwiran ng algoritmo, kakaibang wika, at ang pagkonsentrasyon ng kapangyarihan sa industriya ng AI.

Etika ng AI

Samantalang patuloy na lumalago ang generative AI, maraming mga mananaliksik ang muli ay nag-iisip sa artikulong “Ang Panganib ng Random Parrot”: dahil natanto nila na ang mga isyu na noong panahong iyon ay itinuturing na sobrang pag-aalala, ay ngayon ay naging katotohanan na pinag-uusapan araw-araw sa industriya.

Maaaring siya ay mas maagang nakita ang problema kaysa sa iba

Sa paglipas ng anim na taon, ang gulo tungkol kay Timnit Gebru at Google ay maaaring manatiling walang sagot na tanggapin ng lahat.

Sa tingin ng Google, iyon ay isang normal na akademikong pagsusuri at pag-alis; ngunit sa tingin ni Gebru, pinigil siya dahil sa pagpapanatili ng kanyang pag-aaral. Ngunit isa na ang punto na hirap na tanggihan:

Hindi nawala ang kahalagahan ng papel na nagdulot sa kanya na umalis sa Google, kahit na natapos na ang kontrobersiya.

Kabaligtaran nito, ang mga isyu tulad ng halusinasyon, pagkiling, polusyon ng data, gastos sa kalikasan, pagkabigo ng modelo, at pagkonsentrasyon ng kapangyarihan ay naging mga paksa na hindi na maaaring iwasan ng buong industriya ng AI.

minsan, ang kasaysayan ay nagbibigay ng pagtataya sa isang hindi inaasahang paraan.

Noong 2020, marami ang nagsasabing sobrang malungkot ni Timnit Gebru;

Sa taong 2026, nagsimula ang mga tao na maunawaan na baka siya ay mas maaga lang nakikita ang problema kaysa sa iba.

Mga kawing sa referensya: https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from

Ang artikulong ito ay mula sa WeChat public account na “CSDN”, inayos ni Zheng Liyuan