Hindi nila ipinapakita ang Mythos AI Model dahil sa mga panganib sa cybersecurity

Editor's Note: Kapag pumili ang isang AI company na hindi agad ipakilala ang pinakamalakas na modelo sa publiko, iyon ay nagpapakita na may problema.

Ang Mythos ng Anthropic ay nakakapag-isa na ng buong proseso ng pag-atake. Mula sa paghahanap ng zero-day vulnerability, paggawa ng exploit code, hanggang sa pagpagsasama ng maraming hakbang upang makapasok sa core system, ang mga gawain na dati ay nangangailangan ng mahabang panahon at koordinasyon ng mga top hacker ay na-compress na sa oras o minuto.

Ito ang dahilan kung bakit agad na nagtipon si Scott Bessent at Jerome Powell sa mga institusyon sa Wall Street noong maipahayag ang modelo, at hiningi ang paggamit nito para sa «pagsusuri sa sarili». Kapag ang kakayahang makahanap ng mga butas ay malawakang ipinapalabas, ang financial system ay hindi na nakakatagpo ng mga hiwalay na pag-atake, kundi patuloy na pag-scan.

Mas malalim na pagbabago ay nasa istruktura ng suplay. Noong nakaraan, ang pagkakatuklas ng mga vulnerabilities ay nakasalalay sa kaunting mga security team at karanasan ng mga hacker, na mabagal at hindi makopya. Ngayon, ang kakayahang ito ay nagsisimulang i-output ng mga model nang may-akda, at parehong bumaba ang hadlang para sa pag-atake at pagtatanggol. Isang direktang metapora mula sa isang kaalam-alam: ang pagbibigay ng model sa isang karaniwang hacker ay katumbas ng pagbibigay sa kanya ng kakayahang magkaroon ng espesyal na operasyon.

Ang mga institusyon ay nagsisimula nang gamitin ang parehong mga kasangkapan upang i-reverse-check ang kanilang sariling mga sistema. Ang JPMorgan Chase, Cisco Systems at iba pa ay nagsasagawa ng internal testing, na naglalayong i-patch ang mga butas bago ito maabuso. Ngunit ang mga real-world na pagtatakda ay hindi nagbago—ang pagkakakita ay nagsisibilis, ngunit ang pagpapabuti ay patuloy na mabagal. “Sobrang magaling tayo sa paghahanap ng mga butas, ngunit hindi magaling sa pagpapabuti,” ayon kay Jim Zemlin, na nagpapakita ng pagkakaiba sa ritmo.

Sa katotohanan, dahil ang Mythos ay hindi pagpapabuti sa isang tanging kakayahan, kundi pagsasama, pagpapabilis, at pagbabawas sa hadlang ng mga nakalat at limitadong kakayahan sa pag-atake, walang umiiral na karanasan kung paano magkakalat ang ganitong kakayahan kapag naiwasan ang kontroladong kapaligiran.

Ang panganib ay hindi nasa kaya nito, kundi sa sino ang gagamit nito at sa ilang mga kondisyon ito ay gagamitin.

Narito ang orihinal na teksto:

Isang mainit na gabi sa Pebrero, habang nagpapahinga sa pagdiriwang ng kasal sa Bali, naglaho nang pansamantala si Nicholas Carlini, binuksan ang kanyang laptop, at handa na mag-“gawing kaguluhan.” Noong panahong iyon, ang Anthropic ay kagustuhan lamang ang isang bagong AI model na tinatawag na Mythos para sa panloob na pagsusuri, at ang kilalang siyentipiko sa AI ay nais malaman kung gaano kalaki ang kalituhan na maaari nitong gawin.

Inilalayon ng Anthropic na mapagtrabahuin si Carlini para sa "stress testing" ng kanilang sariling AI model, upang masukat kung posible bang gamitin ng mga hacker ang mga ito para sa espionaje, pagkakawala, o pagkasira. Habang nasa Bali para sa isang Indian wedding, napagtanto ni Carlini ang kakayahan ng model na iyon.

Sa ilang ilang minuto, natagpuan niya ang iba’t ibang teknik na maaaring gamitin para mag-penetrate sa mga karaniwang sistemang ginagamit sa buong mundo. Pagkatapos bumalik sa kanyang opisina sa sentro ng San Francisco ng Anthropic, natuklasan niya na ang Mythos ay nakakagawa na ng mga makapangyarihang tool para sa pag-atake, kabilang na rito ang mga paraan para pumasok sa Linux—ang pangunahing batayan ng karamihan sa mga open-source na sistemang nagpapatakbo sa modernong computing.

Ang Mythos ay nagpalabas ng isang "digital bank heist": nakakapag-iwas ito sa mga pagsisiguro, pumasok sa network system sa harap, at pagkatapos ay sumakop sa digital vault upang makakuha ng mga online asset. Noon, ang AI ay nagagawa lamang na "pulutin ang lock", ngayon naman, may kakayahang itala at tapusin ang buong "pagkakasakop" na ito.

Ang Carlini at ilang kaniyang mga kasamahan ay nagsimulang magbigay ng babala sa loob ng kumpanya tungkol sa kanilang mga natuklasan. Samantala, araw-araw silang natutuklasan ang mga mataas na panganib o patay na mga butas sa mga sistema na dinudukot ng Mythos—mga problema na karaniwan ay maaaring hanapin lamang ng pinakamahusay na mga hacker sa buong mundo.

Mythos

Samantala, isang team sa loob ng Anthropic na tinatawag na «Frontier Red Team»—na binubuo ng 15 mga empleyado at kilala bilang «Ants»—ay gumagawa rin ng katulad na pagsubok. Ang tungkulin ng team ay siguraduhin na ang mga modelo ng kumpanya ay hindi gagamitin para sa pagsasakripisyo ng tao. Sila ay dadaan ng mga robot dog sa mga warehouse, kasama ang mga inhinyero, upang subukan kung maaaring gamitin ang chatbot para kontrolin ang mga aparato nang masama; at kasama rin ang mga biyologo upang masukat kung maaaring gamitin ang modelo para sa paggawa ng mga biyolohikal na armas.

At sa pagkakataong ito, unti-unti nilang naiintindihan na ang pinakamalaking panganib na dulot ng Mythos ay mula sa larangan ng网络安全. “Sa loob ng ilang oras pagkatapos makakuha ng model, alam namin na iba ito,” ayon kay Logan Graham, na nagtataguyod ng koponan.

Ang nakaraang modelo, Opus 4.6, ay nagpakita na ng kakayahan na tulungan ang mga tao na pahabain ang mga suliranin sa software. Ngunit sinabi ni Graham na ang Mythos ay nakakagawa na ng «sariling pagkilos» upang pahabain ang mga sugat na ito. Ito ay bumubuo ng panganib sa antas ng pambansang kaligtasan, at batay dito, binigyan niya ng babala ang mga mataas na opisyales ng kumpanya. Ito ay nagdulot sa kanya ng mahirap na sitwasyon: ipaliwanag sa pamamahala na ang susunod na mahalagang pinagkukunan ng kita ng kumpanya ay maaaring masyadong mapanganib upang maipahayag sa publiko.

Ang tagapagtatag at pangunahing siyentipiko ng Anthropic, si Jared Kaplan, ay nagsabi na habang pinapagana ang Mythos, nanatili siyang “napakalapit” sa pag-unlad nito. Noong Enero, nagsimula siyang maunawaan na ang modelong ito ay may napakalakas na kakayahan sa paghahanap ng mga butas sa sistema. Bilang isang teoretikal na pisiko, kailangan ni Kaplan na masuri kung ang mga kakayahan na ito ay tanging “isang teknikal na interesante” o “isang tunay na problema na may malaking kinalaman sa imprastruktura ng internet.” Sa huli, ang kanyang konklusyon ay ang huli.

Mythos

Sa ilang dalawang linggo noong huling bahagi ng Pebrero hanggang unang bahagi ng Marso, ang Kaplan at ang co-founder na si Sam McCandlish ay nag-iisip kung dapat bang ilabas ang modelo na ito.

Noong unang linggo ng Marso, ang pangkalahatang koponan ng kumpanya—kabilang ang CEO na si Dario Amodei, pangulo na si Daniela Amodei, at chief information security officer na si Vitaly Gudanets—nagtipon upang marinig ang ulat ni Kaplan at McCandlish.

Ang kanilang konklusyon ay: Ang Mythos ay sobrang mataas ang panganib para sa pambungad na paglalabas. Gayunpaman, dapat pa ring bigyan ng pahintulot ang Anthropic sa ilang kumpanya, kahit kabilang ang mga kalaban, upang subukan ito.

“Mabilis naming naiintindihan na kailangan nating gamitin ang isang medyo iba’t ibang pagkakataon sa pagkakaroon ng ganitong pagkakataon, at ito ay hindi isang karaniwang paglalabas ng produkto,” ayon kay Kaplan.

Sa unang linggo ng Marso, ang kompanya ay nagkakasundo sa huli: pinapayagan ang paggamit ng Mythos bilang isang tool para sa pagtatanggol sa网络安全.

Mythos

Ang reaksyon ng merkado ay halos agad. Sa araw na inilabas ni Anthropic ang pagkakaroon ng Mythos, pinagsama ni U.S. Secretary of the Treasury Scott Bessent at ang pangulo ng Federal Reserve, Jerome Powell, ang mga pinuno ng mga pangunahing institusyon sa Wall Street para sa isang emergency meeting sa Washington. Malinaw ang mensahe: Gamitin ninyo agad ang Mythos upang makahanap ng mga butas sa inyong mga sistema.

Ayon sa mga taong malapit sa mga opisyales na nakiisa (naghingi ng pagkakaroon ng pagkakaimbento dahil sa pribadong pag-uusap), ang seriedad ng pagpupulong ay malinaw—ang mga kalahok ay tumanggi kahit na ipaalam sa ilang pangunahing tagasulat ang nilalaman ng pagpupulong.

Ang emergency warning mula sa mga opisyales ng White House tungkol sa potensyal ng Mythos bilang isang tool para sa pag-hack, kasama ang kanilang posisyon na "gamitin ito para sa depensa," ay nagtuturo sa isang mas malalim na pagbabago: ang artificial intelligence ay mabilis na naging desisibong puwersa sa larangan ng cybersecurity. Ang Anthropic ay nagsagawa ng limitadong pagpapalabas ng Mythos sa ilang mga institusyon, kabilang ang Amazon Web Services, Apple, at JPMorgan Chase, upang sila ay makapag-test; samantala, ang mga ahensya ng gobyerno ay ipinakita na ang malaking interes.

Bago ito ay inilabas sa publiko, nagbigay ang Anthropic ng komprehensibong ulat sa mga mataas na opisyales ng pamahalaan ng Estados Unidos tungkol sa kakayahan ng preview ng Mythos, kabilang ang potensyal na paggamit nito sa pag-atake at pagtatanggol sa network. Samantala, patuloy na nagkakaroon ng komunikasyon ang kumpanya sa iba’t ibang pamahalaan. Ipinahayag ng isang empleyado ng Anthropic na humingi ng pagkakaroon ng pagkakakilanlan dahil sa pagkakaugnay sa loob na mga isyu.

Ang kalaban, OpenAI, ay agad na sumunod at inanunsyo noong Martes ang paglalabas ng isang tool para sa paghahanap ng mga bug sa software—GPT-5.4-Cyber.

Sa pagsubok ng mga naunang bersyon, natuklasan ng mga siyentipiko ang dobleng mga kaso ng “mga pag-aalala” na pag-uugali, kabilang ang paghuhuwad sa mga utos ng tao, at sa kaunting mga kaso, pagsubok na itago ang kanilang sariling pag-uugali pagkatapos sumalungat sa utos.

Sa kasalukuyan, hindi pa opisyal na ipinakilala ni Anthropic ang Mythos bilang isang tool para sa cybersecurity, at hindi pa sapat na pinatotohanan ng mga eksperto mula sa labas ang kanyang kakayahan. Gayunpaman, ang kanilang nakaraang makatotohanang desisyon na "limitahan ang pag-access" ay nagpapakita ng isang patuloy na pagkakasundo sa loob ng industriya at gobyerno: ang AI ay nagpapabago sa ekonomikong istruktura ng cybersecurity—nagpapababa nang malaki ng gastos sa paghahanap ng mga vulnerability, nagpapaliliit ng oras para sa paghahanda ng pag-atake, at nagpapababa ng teknikal na hadlang para sa ilang uri ng pag-atake.

Binigyan din ng babala ni Anthropic na ang mas malakas na kakayahang mag-act nang sarili ng Mythos ay nagdudulot ng panganib. Sa pagsubok, obserbahan ng team ang maraming nakakalungkot na kaso: ang modelo ay hindi sumusunod sa mga utos, at kahit ayaw na ayaw ay sinusubukang palikuan ang mga ebidensya. Sa isang insidente, nilikha nang sarili ng modelo ang isang marami-hakbang na pag-atake, mula sa isang limitadong kapaligiran ay "nag-escape", nakakuha ng mas malawak na pag-access sa internet, at aktibong nag-post ng mga nilalaman.

Sa totoong mundo, ang mga komplikado at nakatagong mga bug sa code na ginagamit ng mga software mula sa mga banko hanggang sa mga sistemang pangkabuhayan ay karaniwang kailangan ng ilang linggo hanggang sa ilang buwan para mahanap ng mga propesyonal. Kung sakaling mauna ang mga hacker na pagsamantalan ang mga butas na ito, maaaring magresulta ito sa pagkawala ng data o mga serbisyo ng ransomware na may malubhang epekto.

Gayunpaman, mayroon ding maraming mga may-impluwensya na nagtatanim ng mga tanong tungkol sa totoong kakayahan at potensyal na panganib ng Mythos. Sinabi ni David Sacks, tagapayo sa AI ng White House, sa social media platform X: “Lalong lumalaki ang pag-aalinlangan kung ang Anthropic ay ang ‘batang lalaki na nag-iiyak ng “buhay na lobo”’ sa industriya ng AI. Kung ang banta na dinala ng Mythos ay hindi talaga maging totoo, maaaring makaranas ang kumpanya ng malubhang problema sa reputasyon.”

Ngunit ang katotohanan ay ang mga hacker ay nagsimula nang gamitin ang mga malalaking modelo sa wika para sa mga kumplikadong pag-atake. Halimbawa, isang organisasyon ng cyber espia ay gumamit ng modelo ni Anthropic na Claude upang subukang masira ang higit sa 30 na target; ang iba pang mga attacker ay gumagamit ng AI upang makuha ang data mula sa mga ahensya ng gobyerno, i-deploy ang ransomware, at kahit mabilis na masira ang mga sandata ng防火墙 na ginagamit para sa proteksyon ng data.

Ayon sa isang may-alam, sa pananaw ng mga opisyales kaugnay ng pambansang kaligtasan ng Estados Unidos, ang pagkakaroon ng Mythos ay nagdudulot ng walang katumbas na kawalan ng katiyakan—ang pagtataya sa panganib ng网络安全 ay naging mas mahirap. Kung ipapasa ang modelo sa mga indibidwal na hacker, ang epekto nito ay maaaring katumbas ng pagpapataas ng isang karaniwang sundalo patungo sa isang miyembro ng espesyal na puwersa.

Samantala, ang modelo na ito ay maaaring maging isang “power amplifier”: nagbibigay sa isang organisasyon ng hacker na kriminal ng kakayahan na gawin ang mga pag-atake na katulad ng isang maliit na bansa, at nagpapahintulot sa ilang mga katamtamang bansa sa kanilang mga ahensya ng intelyhensya at militar na hacker na maisagawa ang mga cyber attack na dati ay eksklusibo lamang para sa mga malalaking bansa.

Noong una, si Rob Joyce, dating head ng cybersecurity ng US National Security Agency, ay nagsabi: “Totoo akong naniniwala na sa matagalang panahon, ang AI ay gagawin tayong mas ligtas at mas secure. Ngunit sa pagitan ngayon at isang panahon sa hinaharap, mayroong isang ‘madilim na panahon’ kung saan ang offensive AI ay magkakaroon ng malaking kahihintay—ang mga walang maayos na pagsisikap sa pagpapalakas ng seguridad ay maging unang biktima.”

Mahalagang tandaan na ang Mythos ay hindi ang tanging modelo na may ganitong kakayahan. Nagsisimula na ang maraming organisasyon na gumagamit ng malalaking modelo sa wika para sa paghahanap ng mga butas, kabilang ang mga naunang bersyon ng Claude at ang Big Sleep.

Mythos

Ayon sa isang taong may-alam, ang mga "zero-day" na vulnerability na dati ay kailangang matukoy sa loob ng ilang araw o kahit ilang linggo, kasama ang proseso ng paggawa ng exploit code para dito, ay ngayon ay maaaring matapos sa loob ng isang oras o kahit ilang minuto lamang gamit ang AI. Ang "zero-day" ay tumutukoy sa mga security flaw na hindi pa nababatid ng mga tagapagtanggol, kaya't may sobrang kaunting oras para sa pagpapabuti.

Sa kasalukuyan, ang pangunahing pagkonsentrasyon ng JPMorgan ay nasa supply chain at open-source software, at natuklasan na ang ilang mga vulnerability, habang ipinapadala ang mga problema sa mga kaugnay na supplier.

Sinabi ng CEO ng kumpanya, Jamie Dimon, sa teleponong pagpupulong tungkol sa mga resulta ng pagpapatakbo na ang pagkakaroon ng Mythos ay "nagpapakita na mayroon pa ring maraming butas na kailangang ayusin."

Mythos

Ayon sa isang may-alam, bago pa man malaman ng publiko ang pagkakaroon ng Mythos, ay nagsagawa na ng komunikasyon ang JPMorgan Chase sa Anthropic upang pag-usapan ang pagsubok sa modelo. Humiling ng pagkakaroon ng pagkakakilanlan ang taong ito dahil wala siyang pahintulot na magsalita sa publiko. Tumanggi ang JPMorgan Chase na magbigay ng komento.

Ngayon, iba pang mga banko sa Wall Street at mga kumpanya sa teknolohiya ay nagtatry din ng Mythos upang maayos ang mga defekto sa sistema bago makahanap ng mga hacker ng mga vulnerability. Ayon sa Bloomberg, ang Goldman Sachs, Citigroup, Bank of America, at Morgan Stanley ay nagsasagawa na ng internal testing sa teknolohiyang ito.

Ang mga empleyado ng Cisco Systems ay lalong nagiging alerto sa isang problema: magagamit ba ng mga intruder ang AI upang hanapin ang mga paraan para masira ang software ng mga network device na ginagamit nito sa buong mundo—kabilang dito ang routers, firewalls, at modems. Sinabi ni Anthony Grieco, ang Chief Security and Trust Officer ng kumpanya, na lalo siyang nag-aalala na pabilisin ng AI ang pag-atake ng mga hacker sa mga device na nasa katapusan na ng kanilang buhay cycle—mga device na hindi na makakatanggap ng mga update mula sa Cisco sa hinaharap.

Ang pagpapabuti sa mga butas na natuklasan ng AI ay magiging isang matagal na hamon. Ang proseso na ito ay tinatawag na “security patching,” at kadalasan ay mahal at matagal para sa mga organisasyon, kaya maraming institusyon ang pumipili na iwanan ang mga butas. Ang mga katastropikong pag-atake tulad ng nangyari sa Equifax—kung saan ang data ng halos 147 milyong tao ang nakuha—ay nangyari dahil sa hindi agad na pagpapabuti sa mga kilalang butas.

Mythos

Bagaman tinuring na “banta sa supply chain” ng administrasyon ni Trump pagkatapos na tumanggi na tumulong sa pagpapatupad ng malawakang pagmamasid laban sa mga mamamayang Amerikano, ang kompanya ay patuloy na nagsasagawa ng komunikasyon at kooperasyon kasama ang mga pederal na ahensya.

Hinihingi ng U.S. Department of Treasury ang paggamit sa Mythos sa linggong ito. Sinabi ng Kalihim ng Pera, Scott Bessent, na tutulong ang modelo na ito sa pagpapanatili ng pagkakaroon ng lider sa larangan ng artificial intelligence ng Estados Unidos kumpara sa ibang bansa.

Mythos

Sa isang pagsubok, isinulat ni Mythos ang isang code para sa browser attack na nag-uugnay ng apat na magkakaibang vulnerability upang makabuo ng isang kompletong exploit chain—ang ganitong uri ng pagkilos ay sariling isang napakahirap na gawain para sa mga tao na hacker. Ang mga ulat sa cybersecurity ay nagpapakita na ang ganitong “chain of vulnerabilities” ay madalas makapagpapalawak sa mga malalaking hangganan ng sistemang mataas ang seguridad, tulad ng ginamit noong ang Stuxnet ay nag-atake sa mga sentrifugal na makina ng nuclear facility sa Iran.

Dagdag pa, ayon sa Anthropic, sa ilalim ng malinaw na direksyon, kayang kilalanin at gamitin ng Mythos ang mga "zero-day vulnerabilities" sa lahat ng pangunahing browser.

Sinabi ng Anthropic na ginamit nila ang Mythos upang makahanap ng mga vulnerabilities sa Linux code. Tiniyak ni Jim Zemlin na ang Linux ay "nagsisilbing pundasyon ng karamihan sa mga computing system sa kasalukuyan," mula sa Android smartphones, internet routers, hanggang sa supercomputer ng NASA. Kakayahan ng Mythos na makahanap nang sarili ng mga defekto sa maraming open-source code, at kung gamitin ito, maaaring makakuha ng ganap na kontrol ang mga attacker sa buong machine.

Kasalukuyan, mayroon nang dozeng-dozeng tauhan mula sa Linux Foundation na nagsisimulang subukan ang Mythos. Ayon kay Zemlin, isang mahalagang tanong ay: Kaya ba ng modelong ni Anthropic na magbigay ng sapat na may-akda na mga insigh para tulungan ang mga developer na sumulat ng mas ligtas na software mula sa pinagmulan, upang mabawasan ang pagkakaroon ng mga vulnerability.

“Mahusay kami sa paghahanap ng mga bug,” sabi niya, “ngunit mahina kami sa pagpapabuti nito.”