Ipinakilala ng Anthropic ang isang set ng patakaran para sa mga advanced na AI model. Sinasabi ng kumpanya na ang mga kasalukuyang patakaran sa transparensya ay hindi na makakasabay sa pag-unlad ng kakayahan ng mga model, at kailangan ng pamahalaan ng mas malinaw na kapangyarihan para makatwirang mag-intervenyo bago makapasok ang mga mataas na panganib na sistema sa publiko.
Ang mga obhekto ng regulasyon ay nakabatay sa hash rate at kita
Ang plano ay nahahati sa dalawang bahagi: ang isa ay nakatuon sa teknikal at regulatoryong mga kinakailangan ng pinakamalakas na modelo, habang ang isa pa ay tumatalakay sa mga isyu ng ekonomikong pagkakabahagi sa ilalim ng automatization. Batay sa mga naiulat, mas kompletong ang unang bahagi.
Ang Anthropic ay pinapaliit ang sakop ng regulasyon sa ilang pangunahing developer, hindi sa buong industriya. Ibinigay ng kumpanya na ang mga modelo na may higit sa 10²⁵ na floating-point operations ay dapat isama sa framework; ang mga kumpanya na may taunang AI-related na kita na higit sa 500 milyong dolyar, o gastusin sa pag-aaral ng AI na higit sa 1 bilyong dolyar, ay dapat magamit ang mga kinakailangang ito.
Ang disenyo na ito ay naglalayong magbigay-diin sa mga modelo na may pinakamalaking yaman at kakayahan, at iwasan ang pagpapailalim sa parehong antas ng regulasyon ng mga maliit at katamtamang developer at mga institusyon ng pananaliksik.
Nakikita ng pamahalaan na maaaring pigilan ang mataas na panganib na paglalabas

Sinabi ng kompanya na ang pinakamahalagang pagbabago ay ang pagbibigay sa gobyerno ng legal na kapangyarihan upang pigilan o kontrolin ang pag-deploy ng mga mataas na panganib na modelo. Sa kasalukuyan, wala pa ring kompletong mekanismo sa Estados Unidos na makakapagpapigil nang may kahulugan bago ma-deploy ang modelo sa publiko.
Sa mga partikular na kahilingan, kailangan ng mga developer ng avant-garde na modelo na matapos ang pagsubok bago ang pagpapalabas, at ipaalam ang summary ng pagsubok, seguridad framework, at system card upang ipaliwanag ang pagkakagawa at paraan ng pagkontrol sa panganib ng modelo. Kailangan din ng mga kumpanya na sumumite ng regular na report sa panganib upang ipaalam ang pangkalahatang kalagayan ng panganib at mga progreso sa seguridad.
Ang Anthropic ay nagmumungkahi rin ng pagpapakilala ng mga independiyenteng pagsusuri na magrereview sa mga pagsusuri na ginawa ng mga kumpanya, at maglalabas ng hiwalay na mga konklusyon ukol sa panganib ng modelo. Sa paraang ito, ang mga regulahor at publiko ay hindi na lamang magiging nakadepende sa mga pahayag ng kumpanya para sa impormasyon.
Parusang inaayos at pinapalakas ang mga pangangailangan sa kaligtasan
Sa pagdidisenyo ng pagpapatupad, inirerekomenda ni Anthropic na iugnay ang mga sanksyon sa sibil sa taunang global na kita ng isang kumpanya, hindi sa isang fixed fine. Naniniwala ang kumpanya na tanging sa paraang ito ay maaaring magkaroon ng tunay na epekto ang sanksyon sa mga malalaking AI na kumpanya. Dapat pa ay palakasin ang halaga ng multa para sa mga paulit-ulit na lumabag.
Bukod sa pagsubok at pagpapahayag, hinihingi ng programa na magtatatag ang mga kumpanya ng mas malakas na sistema ng seguridad upang protektahan ang mga timbang ng modelo at mga sistema ng pagtuturo, at pigilan ang mga panlabas na pag-atake at pang-panloob na pang-aabuso. Maaaring magpahayag ang mga kumpanya ng pangkalahatang istruktura ng kanilang plano sa seguridad, habang ang mas detalyadong impormasyon ay ipapamahagi lamang kapag hingin ng mga ahensya ng gobyerno.
Inirerekomenda rin ni Anthropic na ang pamahalaan at industriya ay magkaisa sa pagbuo ng mga pamantayan para sa mga independiyenteng tagapagsuri, at siguraduhin na ang mga tagapagsuri na ito ay may sapat na pondo at kinakailangang pag-access. Dahil karaniwang pinakamahalagang ari-arian ng mga kumpanya ang mga modelo sa harap, ang pagtukoy kung sino ang magpapasya at kung paano makakakuha ng pag-access ay isa sa mga hamon sa pagsasagawa.
Tukuyin ang apat na pangunahing panganib
Ang Anthropic ay listahan ang apat na kategorya ng pangunahing panganib sa dokumento: mga panganib sa biolohiya, mga panganib sa网络安全, mga panganib sa pagkawala ng kontrol, at ang panganib na auto-accelerate ng AI sa sariling pag-unlad. Naniniwala ang kumpanya na ang mga panganib na ito ay hindi nag-iisa, at maaaring magpapalakas ng isa't isa.
Halimbawa, ang mga modelo na may kakayahang malawakang makahanap ng mga bug sa software ay maaaring direktang makaapekto sa mga kritikal na imprastruktura tulad ng mga ospital at network ng enerhiya; at sa ilalim ng sapat na pagkakabawas, ang mga kakayahang ito ay maaaring magkakasama sa mga biolohikal na panganib.
Sa mga kasunod na hakbang, inirerekomenda ni Anthropic na palakasin ang pagprotekta sa internet at mga kritikal na imprastruktura, pagsuportahan ang pagpalit ng mga lumang sistema sa mga kritikal na serbisyo, at itatag ang isang espesyal na ahensya ng gobyerno upang tuloy-tuloy na suriin ang mga pagbabago sa network capability ng mga pinakamoderno na AI. Tungkol sa mga panganib ng pagkawala ng kontrol at awtomatikong pag-unlad, kilala ng kumpanya na ang mga kasalukuyang kasangkapan sa pamamahala ay hindi pa kumpleto, at kailangan pa ring palakasin ang kakayahan sa pagpapansin, pag-isolate, at pagpaputol ng mga hindi ligtas na sistema.
Karagdagang impormasyon: Sinabi ng Anthropic sa dokumento na ang mga alituntunin sa transparensya sa California, New York, at iba pang lugar ay may epekto, ngunit ang pagpapahayag lamang ay hindi sapat upang masakop ang mga panganib na dulot ng mabilis na pagpapalit ng mga modelo sa harap.
