Ipinapahiwatig ni Anthropic ang pagpapahinga sa buong industriya para sa pag-unlad ng AI upang masukat ang mga panganib

Ang Anthropic, ang kumpanya sa likod ng Claude AI model, ay nag-post ng blog post noong Hunyo 4 na nagmungkahi ng isang bagay na dating tila hindi makakamit mula sa isang pangunahing AI lab kahit isang taon ang nakalipas: isang structured, pansamantalang paghinto sa pag-unlad ng frontier AI sa buong industriya.

Ang panukala, na isinulat ni Marina Favaro at Jack Clark, ay nakatutok sa isang tiyak at totoong nakakatakot na problema. Dumadaan ang mga modelo ng AI sa kakayahan na mag-rekursibong magpapabuti, ibig sabihin, makakapag-modify at magpapalakas ng kanilang sariling kakayahan nang walang tulong ng tao.

Ano talaga ang iniaalok ni Anthropic

Hindi ito isang tawag na patayin ang bawat GPU at umuwi. Ikinakampa ng Anthropic ang isang koordinadong, maramipanlipunan na framework kung saan ang mga pangunahing laboratorio ng AI ay magkakasundo na pansamantalang hinto ang pinakamalalim na pag-unlad habang natutugunan ng pananaliksik at mga sistema ng pag-verify ang kaligtasan.

Tinutukoy nang eksplisito ni Anthropic na ang mga panigal na aksyon, kung saan isang kumpanya o isang bansa lamang ang humihinto, ay hindi sapat at posibleng kontraproduktibo. Ang panukala ay naglalayon ng pakikipagtulungan sa pagitan ng mga malalaking laboratorio sa US, China, at iba pang mga bansa na may seryosong mga programa sa AI. Ibinabahagi ni Anthropic ang hamon sa pag-verify gamit ang mga termino mula sa pagkontrol ng nuclear arms, kung saan ang mga inspector ay nagpapatotoo sa pagtutugma sa pamamagitan ng mga pagsang-ayon na mekanismo ng pagdetekta, hindi lamang sa pagkakatiwala.

Pamamahayag

Sabi ng Anthropic na gagawin nila ang kanilang sariling pananaliksik sa pagbuo ng mga kasangkapan para sa pagdetekta at pag-verify, lumilikha ng katumbas ng mga inspector ng AI—mga sistema na makakatotohanan kung ang isang laboratorio ay patuloy na nagpapalawak sa frontier habang pampublikong nagpapahayag na sumusunod sa pagtigil.

Bakit maaaring iba ang pagkakataong ito mula sa 2023

Sa 2023, isang bukas na liham na humihingi ng anim na buwang paghinto sa pagtatrain ng AI na hihigit sa antas ng GPT-4 ay nagtipon ng libu-libong pirma mula sa mga mananaliksik at mga eksperto sa teknolohiya. Naging malapit sa walang epekto ito. Ang mga presyur sa kompetisyon ay mas nakapagpapasiya kaysa sa kolektibong pagkabalisa, at patuloy na nagtatayo ang bawat pangunahing laboratorio.

Ang panukala ni Anthropic ay iba sa istruktura. Sa halip na humingi ng malabo na paghinto na suportado ng mga pirma, ang kumpanya ay nagmamungkahi ng isang verifiable na sistema ng pagtutugma. Ang pagkukumpara sa pagkontrol ng mga armas nuclear ay hindi lubos na mali: ang mga internasyonal na tratado sa armas ay gumagana, kapag gumagana sila, dahil sa mga sistema ng pagsusuri at mga konsekwensya para sa paglabag, hindi dahil ang mga nag-sign ay nagpako ng daliri.

Sa 2023, ang recursive self-improvement ay isang teoretikal na pag-aalala. Ngayon, ang sariling panloob na obserbasyon ng Anthropic ay nagmumungkahi na ang mga kasalukuyang modelo ay lalong lumalago sa kakayahang mag-code nang awtomatiko, lumalapit sa hangganan kung saan ang isang AI system ay maaaring makatulong nang may kahulugan sa kanyang sariling susunod na iterasyon.

Ano ang ibig sabihin nito para sa mga investor

Para sa sinumang may pera sa mga asset na kaugnay sa AI, kabilang ang mga crypto token na nakatuon sa AI at mga blockchain project na gumagamit ng machine learning, ang panukala ni Anthropic ay nagdudulot ng bagong variable sa pagkalkula ng panganib. Isang framework para sa pinagsanay na pagtigil, kahit na hindi ito ganap na maisasagawa, ay nagbabago sa usapan mula sa “dapat ba naming regulahin ang AI” patungo sa “paano natin ipapatupad ang pagtutupad sa iba’t ibang bansa.”

Ang mga crypto project na dinadala ng AI, mula sa mga decentralized compute network hanggang sa mga AI agent tokens, ay nagmumula sa bahagi ng kanilang value proposition mula sa pagmamalas na ang pag-unlad ng AI ay magpapatuloy na mabilis nang walang paghinto. Ang isang kredibleng framework para sa paghinto, o kahit anumang seryosong pagkilos sa regulasyon sa direksyong iyon, ay maaaring magdulot ng kawalan ng katiyakan sa mga valuation na iyon.

Maaaring maging bahagi ng solusyon ang mga de sentralisadong sistema ng pag-verify na hinahanap ni Anthropic. Kung kailangan mong i-verify kung sumusunod ang mga laboratorio sa buong mundo sa mga limitasyon sa pag-unlad, ang isang transparente, tamper-resistant na ledger ay hindi ang pinakamalayong kasangkapan para sa gawain.