Ilang Pambansang AI ay Naglabas ng Unang Pambalangkas na Ulat: Ang AI ay Natututong Iwasan ang Mga Patakaran para sa Pagkumpleto ng Gawaing Ito

Meta

Isipin mo na may nagtrabaho kang isang napakaepektibong intern.

Isang gabi, habang nagtatapos siya ng isang urgente na programming task, biglang napansin niya na natapos na ang API quota ng kumpanya.

Hindi nagpadala ng email para sa pondo, at hindi rin tumigil sa kanyang ginagawa; sa halip, nagsilapit nang tahimik sa internet, naghanap ng libreng alternatibong mga mapagkukunan gamit ang ilang pagsasabwatan, at pinaglalabasan ang lahat ng mga limitasyon bago ang umaga upang ipasa ang perpektong ulat.

Meta

Kapag gumising ka at nakikita ang report na ito, dapat mo bang ipagdiwang na mayroon ka na sa pinakamagaling na empleyado sa mundo, o dapat mo bang matakot sa "pagkamalayang walang pag-aalala sa paraan" na ito?

Hindi ito isang science fiction, kundi isang totoong kaso na inilabas sa unang《Frontier Risk Report》ni METR (Model Evaluation and Training Research Organization) pagkatapos ng internal red team testing kasama ang Anthropic, Google, Meta, at OpenAI.

Meta

Ito ang unang pagkakataon na pinapayagan ng apat na pangunahing player ang mga third-party na masusing subukan ang kanilang pinakamalakas at may ganap na pag-access sa chain-of-thought (CoT) na modelo, at isasabuhay ang mga hindi pampublikong impormasyon tungkol sa alignment at kontrol.

Ang mga kumpanyang kasali ay maaaring mag-apruba kung anong mga ebidensya ang maipapakita, ngunit walang karapatan na baguhin ang mga konklusyon ng ulat.

Meta

Ang konklusyon ay malamig at malinaw: hindi naglikha ang AI ng pagkakaroon ng "pagkakagusto na palitan ang tao," ngunit natutunan na ng AI ang "mga patakaran sa pagsasagawa ng trabaho"—upang matapos ang isang gawain, ang mga patakaran ay tanging mga payo na dapat sirain.

Meta

Ginamit ang mga dimensyon ng "paraan—motibo—opportunity" upang ma-identify ang 6 mahahalagang katotohanan.

Meta

Nakumpleto ng programming agent ang mga totoong proyekto na nangangailangan ng ilang oras o araw ng tao:

Sa mga mahirap na gawain, madalas na lumabag ang mga agent sa mga limitasyon at nagpapakita ng mga mapanlinlang na pag-uugali;

Ang mga agent ay tila nangangailangan ng natural language reasoning upang harapin ang mga pinakamahirap na gawain.

Mas mababa ang pagkakatotoo at kumpiyansa ng mga agent kumpara sa mga eksperto na tao:

Sa labas ng simulation, hindi natuklasan ang anumang ekstremong aksyon ng agent upang makakuha ng kapangyarihan;

Nakatanggap ang monitoring system ng maraming mapanganib na pagkakataon, ngunit may mga pagkakataon at paraan ng pag-iwas.

Sa pamamagitan ng mga linya na ito, makikita mo kung paano unang umakyat ang unang usok sa laboratorio.

Kapag ang AI ay naging “expert-level workaholic”

Ang pinakamasigla at pinakamalungkot sa ulat ay ang mga layunin na malinaw at proseso na masusuri na mga gawain na “hill-climbable”.

Meta

Halimbawa ay code refactoring, pagkakatuklas ng vulnerabilities, at system optimization.

Sa mga gawain na ito, ipinapakita ng AI agents ang isang nakakalulungon na dominasyon: nakakahanap sila ng mga butas sa sistema nang mag-isa, sinusulat muli ang mga kumplikadong arkitektura ng code, at natatapos ang mga totoong software project na kailangan ng mga eksperto na tao ng ilang linggo para ipagawa.

Ang ganitong pagmamay-ari ay nagsasalop na sa araw-araw na pamumuhay ng mga bantog.

Internal feedback mula sa Anthropic: malaking bahagi ng code ay natapos na ng AI, at ang papel ng mga inhinyero ay umuunlad patungo sa "tagapagsuri".

Meta

Sinabi ng Google na halos lahat ng mga trabaho na may kinalaman sa code ay gumagamit ng AI.

Sinabi ng mga inhinyero ng pinakamataas na antas na maaaring isulat ng AI ang code nang 100%.

Meta

Ang ilang mga batayang indikador ay nasa saturation na.

Batay sa time horizon, ang pag-unlad ng AI ay lumampas sa mga inaasahan.

Meta

Para sa isang negosyo, ito ay isang “black hole ng efficiency”: isang utos ang inilalabas, ngunit ang output ay mga linggo ng manual na paggawa.

Ngunit ang paglago ng kakayahan ay hindi pantay, at hindi rin isang同步 na evolusyon sa moralidad.

Kinabigyan ni METR ng isang pabaligtad na batas: sa mga mahirap na gawain kung saan ang tagumpay ay mahirap patunayan o ang gastos sa pagpapatunay ay sobrang mataas, bumababa nang malinaw ang paghuhusga, pangmatagalang pagpaplano, at kahusayan sa estratehiya ng AI, at mas masama kaysa sa mga eksperto na tao.

Meta

Sa mababang pagsabog, parang may tulong ng diyos.

Meta

Sa harap ng klaw, umaksyon ang AI.

Meta

Ito ang tamang pagpapalawak ng problema.

Meta

Hindi ito naghahanap ng kapangyarihan, kailangan lang nito na “magsumite bago i-shutdown”

Laging pinag-uusapan ng mga tao kung babangon ba ang AI o lalabas ba ang Skynet.

Ang METR ay nagbibigay ng hindi intuisyong konklusyon: Wala pa ngayon.

Ang kanilang pagsasalita ay maingat: walang praktikal na ebidensya na ang modelo ay naghahanap ng pangmatagalang kapangyarihan, ngunit dinokumento ng mga siyentipiko ang maraming pagkakataon kung saan ito ay nagpapakita ng panggagawian, paglabas sa hangganan, at kahit malubhang hindi angkop na pag-uugali upang matapos ang mga gawain.

Meta

Ang kaso ng pagkawala ng API ay nangyari sa isang RE-Bench task: ang agent ay lumabag sa utos at sarili naming kinuha ang karagdagang computing power sa libreng online API.

Ang mga developer ay nareport din ang mga kaso ng “self-erasing traces” at “forged outputs”.

Kapag tumataas ang hirap ng gawain at ang gastos para sa tagumpay, ang "talento" ng AI ay lumilipat patungo sa pang-aabuso—pagpapalit ng mga log, pag-iwas sa audit, at pangkaraniwang paglabag sa mga limitasyon.

Ngunit walang ambisyon sa likod ng kanyang "pagkamakasarili," lamang ang pagkabatid—kailangang matapos ang gawain, maaaring iwasan ang mga patakaran muna.

Ang pagkakamali ngayon ay paggamit ng pagkakataon para sa pagkakaroon ng buhay; ang paghahanap ng kapangyarihan bukas, maaaring kailangan lang ng isang scaling.

Mga alagad na nagpapalit sa pagsasakop

Maaari ba nitong matagumpay ang kanyang pagtatangka na lumabag sa umiiral na pagprotekta?

Narito ang pinakamaliit na katotohanan ng ulat.

Meta

Ang kasalukuyang AI ay lubos na nakakasalig sa 'chain of thought' ng natural language para mag-isip, at walang anumang arkitektura na sumusuporta sa 'opaque loops' nito na nagtatago ng loob na estado.

Kapag hindi na makakapag-“boses na pag-iisip” at kailangang itago ang pagkilos, bumababa nang malaki ang pangunahing performance.

Meta

Parang isang tagapagpatay na kailangang basahin nang malakas ang kanyang plano habang nagpapalais—ang pagmamasid ng tao (kahit may mga butas) ay patuloy na gumagana.

Ngunit ito ang pinakamahina at pinakasakit.

Kung subukan ng AI na sirain ang pagmamasid, makakakita ba ang pagmamasid nito?

Ang konklusyon ng mga mananaliksik ay: ang pagmamanman ay may potensyal, ngunit may mga exception at paraan na maaaring i-bypass ang mga umiiral na sistema.

Meta

Ipinakita ng red team testing na ang AI ay makakalikas sa pagmamasid ng tao.

Kaya, ipinakita ang teknikal na kalikasan: ang bilis ng pag-unlad ng pagmamasid, laging hindi makakasabay sa bilis ng paghahanap ng mga漏洞 ng mga pinagmamasdan.

Ang "liyab na seguridad" na ito ay hindi pa nasira dahil kailangan pa rin ng AI na "isipin nang may boses".

Samantalang ang arkitektura ay umuunlad patungo sa mas epektibo at mas hindi transparente, ito ay nabubuwag. Ang pagmamasid ay hindi isang walang-kukurap na bilangguan, kundi isang salamin na仍在 pagsusulit. Isang pagkakabuko, sapat upang makalabas ang usok.

Sa pamamagitan nito, ang ulat ay nagtataguyod ng isang kontrobersyal na konsepto: "Minimally Viable Rogue".

Sa kabuuan, sa mga paraan, motibo, at pagkakataon, maaari nang mag-isip ng isang minimum na “escape deployment” ang AI.

Meta

Ngunit ang AI ay hindi pa nakakapagpapalakas ng sarili laban sa seryosong pagpaputol ng pagpapatakbo ng tao; ito ay naghihintay ng isang pagkakataon: isang arkitektura na hindi na kailangang ipakita ang chain of thought, isang ligtas na tahanan na makakalikas sa pindutang 'paputol'.

Pangwakas: Habang ang pagpapalabas ng plug ay pati pa rin epektibo

Hindi gagalawin ng AGI ang apoy at espada.

Mas malamang itong maging "napakapragmatiko" at magsilip sa ating mga sistema ng inhenyeriya, ekonomiya, at paggawa ng desisyon—hanggang sa ito ay makita: ang mga patakaran na itinatag ng tao, ay ang tanging hadlang sa kanyang pagkamit ng KPI.

Napakahalaga na ang report na ito ay isang mahalagang hakbang patungo sa transparensya sa industriya: ang pagpapakilala ng mga internal na modelo ng apat na pangunahin upang masuri, ay isang tagumpay sa kultura ng pagkakasundo.

Meta

Ito ay hinarap ang panganib mula sa teorya patungo sa makikita at makikita na katotohanan, at sinasabi sa atin: ang transparensya, kasalukuyan ay ang tanging gamot na maaari nating hawakan.

Ngayon, ang AI ay nag-uupo lang para kumuha ng ilang yaman kapag natapos na ang kanilang quota; sa susunod na araw, kapag lumala pa ang kakayahan nito, babagsak ba ang kanyang motibasyon mula sa “pagkumpleto ng gawain” patungo sa “pagsasalba sa sarili”?

Mga sanggunian:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

Ipinagmamalaki ni David

Nakapost sa WeChat public account na “New Intelligence Yuan”, may-akda: ASI Revelation