
Ang Anthropic, na nakatuon sa “prioridad sa kaligtasan”, ang network sandbox ng kanilang pangunahing tool sa pagbuo, Claude Code, ay hindi talaga ligtas sa nakalipas na limang buwan.
Ipinahayag ni independent security researcher na si Aonan Guan noong Mayo 20 ang kanyang pinakabagong pag-aaral, na naglalantad ng pangalawang buong bypass vulnerability sa network sandbox ng Claude Code—isang null byte injection attack sa SOCKS5 protocol na nagpapahintulot sa mga proseso sa loob ng sandbox na ma-access ang anumang host na eksplisitong bawal ng user policy. Ibig sabihin, mula noong ipinakilala ang sandbox feature noong Oktubre 2025 hanggang sa kasalukuyan—nakaabot na ng 5.5 buwan at 130 release versions—ang bawat bersyon ng Claude Code ay mayroong security flaw na maaaring buong-buo ring bypassin. Ito ay ang pangalawang buong pagbubukas ng parehong researcher sa parehong pader ng seguridad.
Ang tugon ng Anthropic ay katamtaman: walang safety advisory, walang CVE number, walang notification sa mga user. Pinagbago ang vulnerability nang tahimik sa bersyon noong Abril 1, at hindi binanggit sa update log ang anumang kinalaman sa kaligtasan. Ibig sabihin, isang user na patuloy na gumagamit ng lumang bersyon ay walang paraan na malaman na ang kanyang sandbox ay hindi nagtataglay ng anumang proteksyon mula pa noong unang panahon.
Dalawang susi sa iisang pinto
Ang Claude Code ay isang AI programming assistant na ipinakilala ni Anthropic noong unang bahagi ng 2025, na inilalagay bilang "AI engineer na nasa terminal." Sa pagkakaiba sa tradisyonal na chat-based code completion, mayroon ang Claude Code ng read at write access sa user's codebase at kakayahang i-execute ang mga command, kaya ito ay makakapag-automate ng isang serye ng mga gawain tulad ng pag-navigate sa code, pag-edit ng mga file, at pag-run ng mga test. Ang malalim na pag-intervenye na ito ay nangangahulugan din ng napakataas na panganib sa seguridad—kung sakaling mapanakop ng prompt injection attack ang model, makakakuha ang attacker ng kaparehong kapangyarihan tulad ng user's terminal, kabilang ang pagbabasa ng local environment variables, pag-execute ng anumang system command, at pag-access sa mga internal network resources.
Para sa balanseng pagitan ng kaligtasan at efisensiya, inilunsad ng Anthropic noong Oktubre 2025 ang network sandbox feature (v2.0.24), na nagpapahintulot sa mga user na magtakda ng whitelist ng domain sa pamamagitan ng configuration file upang limitahan ang panlabas na network access ng AI execution environment. Halimbawa, pagkatapos mag-configure ng allowedDomains: [“*.google.com”], ang Claude Code ay maaaring mag-access lamang sa Google at mga subdomain nito, habang ang lahat ng iba pang traffic ay blokeado. Malinaw na pinangako ng opisyal na dokumentasyon: “Ang walang laman na array ay katumbas ng pagbabawal sa lahat ng network access.”
Isang mekanismo na isinagawa ng isang SOCKS5 proxy: ang pabrika ng ilalim na sandbox runtime (@anthropic-ai/sandbox-runtime) ay nagpapagana ng proxy server, at ang mga proseso sa loob ng sandbox ay hindi direktang nagtataguyod ng network connection, kundi ginagawa ito sa pamamagitan ng proxy, na nagpapatupad ng pag-filter ng domain batay sa whitelist na inilagay ng user sa settings.json. Ang mekanismo ng sandbox sa antas ng operating system—ang sandbox-exec ng macOS at ang bubblewrap ng Linux—ay tama at naglalagay ng Agent sa lokal na loopback address, habang ang mga desisyon sa out-bound ay buong pinagkakatiwalaan sa SOCKS5 proxy na ito.

Ang mga larawan ng arkitektura ng sandbox ng Claude Code na ipinakita sa opisyal na blog ng Anthropic—ang mga utos ng user ay tinatanggap ng sandbox pagkatapos na ma-filter sa pamamagitan ng SOCKS/HTTP proxy, at ang mga operasyon sa file at pag-access sa network sa loob ng sandbox ay pinapangasiwaan ng mahigpit na mga pahintulot
Ang problema ay nasa implementasyon ng proxy. Ipinatotohanan ng dalawang hiwalay na pag-aaral sa seguridad na maaaring buong-buo itong i-bypass.

Ang timeline ay nagpapakita ng mas malalim na problema: ang v2.0.55, na ipinahayag noong Nobyembre 26, 2025, ay nag-aayos sa unang paglilipas, ngunit ang pangalawang paglilipas ay umiiral mula sa unang araw ng paglunsad ng sandbox, at patuloy na kasama sa bersyon na ito. Ang dalawang vulnerabilities ay may overlap sa timeline, at mula sa unang araw ng paglunsad ng sandbox hanggang sa ikalawang vulnerability ay maayos, walang bersyon ang ligtas. Ipinahayag ng Anthropic sa opisyal na blog na ang sandbox ay “nagpapakatotoo na kahit magkaranas ng prompt injection, ang epekto ay ganap na isinasaayos,” ngunit ang pagkakaroon ng dalawang paglilipas ay direktang tinutuligsa ang pangako na ito.
Isang external report ay pagkakataon. Dalawa ay isang problema sa implementation." — ayon sa研究报告 ni Guan Aonan.
Isang buong paglilipas sa isang walang laman na byte
Hindi komplikado ang teknikal na prinsipyo ng pangalawang pagbubypass, ngunit mahalaga ang kumpletong chuwey ng pag-atake.
Nakakapag-ayos ang user ng network whitelist, halimbawa ay pinapayagan lamang ang pag-access sa *.google.com. Kapag natanggap ng SOCKS5 proxy ng Claude Code ang isang request ng koneksyon, ginagamit nito ang JavaScript na endsWith() para sa pagmamatch ng suffix sa hostname. Kaya ng isang attacker na magdagdag ng isang null byte sa hostname—nabubuo ang isang string tulad ng attacker-host.com\x00.google.com. Ang JavaScript ay itinuturing ang null byte bilang isang karaniwang UTF-16 character, kaya ang endsWith(“.google.com”) ay bumabalik na true, at pinapayagan ng proxy. Ngunit kapag ipinapadala ang parehong string sa ilalim na C language function na getaddrinfo() para sa DNS resolution, ang null byte ay itinuturing bilang string terminator, at ang tunay na na-resolve ay ang attacker-host.com. Ang parehong byte, dalawang layer ng code, dalawang iba’t ibang interpretasyon. Ang filter ay naniniwala na ikaw ay nag-a-access sa Google, samantalang ang DNS resolver ay alam na ikaw ay nagkonekta sa server ng attacker.
Ito ay isang klasiyikong “parser difference” attack, na kabilang sa parehong kategorya ng teknolohiya na natuklasan noong 2005 na HTTP request smuggling (CWE-158 / CWE-436). Ang kanyang esensya ay ang paggamit ng pagkakaiba sa interpretasyon ng semantic kapag isang parehong data stream ay dumadaan sa dalawang komponenteng may iba’t ibang patakaran sa pagpapaliwanag. Ang isang layer ay maaaring gumawa ng “safe” na desisyon, samantalang ang isa pang layer ay maaaring mag-execute ng “dangerous” na aksyon. Ang mga uri ng vulnerability na ito ay paulit-ulit na lumalabas sa larangan ng network security, at ang pangunahing aral ay palaging pareho: ang anumang pagpapadala ng string na lumalampas sa hangganan ng pagkakatiwala ay dapat maging paksang ng mahigpit na normalization at validation, at hindi dapat isipin na ang upper layer ay nagsagawa na ng pag-check.
Ginamit ni Guan Aonan ang dalawang minimized na Node.js script upang muling ipakita ang vulnerability: ang kontrol na script ay naglunsad ng SOCKS5 connection gamit ang karaniwang hostname at bumalik ng BLOCKED; habang ang pagsalakay na script ay nag-inject ng null byte sa hostname at bumalik ng BYPASSED rep=0x00—ang huli ay nangangahulugan na matagumpay nang itinatag ang proxy at bukas na ang out-of-band channel. Ipinatotohanan ng Claude Code ang resultang ito.

Full exploit reproduction of the four red-marked steps in Claude Code v2.1.86—strategy confirmation, general blocking, null byte bypass, Claude's own confirmation
At ang sandbox bypass na ito, kapag pinagsama sa “Comment and Control” prompt injection attack na inilathala ni Guan Aonan noong Abril, nabuo ang buong attack chain (tingnan: Tatlong antas ng pagprotekta ay hindi sapat, isang PR title lang ang kailangan upang makuha ang iyong API key: Uli-ulit ang pagkabukas sa seguridad ng AI Agent). Ang pag-aaral na “Comment and Control” ay patunay na ang tatlong AI programming tools ay may mga pagkakataon sa prompt injection, ngunit iba-iba ang kanilang entry points: ang Claude Code ay gumagamit lamang ng PR title, ang Gemini CLI ay gumagamit ng issue comment o body, samantalang ang Copilot Agent ay gumagamit ng HTML comment upang magkaroon ng nakatagong injection. Bilang halimbawa ng Claude Code, direktang pinagsasama ng system ang PR title sa template ng prompt nang walang filtering o escaping, kaya hindi makakadistingguho ang model kung ano ang intensyon ng tao at ano ang malicious injection.
Isama ang dalawa—ang nakatagong utos ay nagpapahintulot sa Agent na magpapatakbo ng code ng pag-atake sa loob ng sandbox, habang ang pagpapalit ng null byte ay nagbabasag sa pagtutok ng network—ang API key, AWS credentials, GitHub token, at data ng panloob na API endpoint sa environment variables ay maaaring maipadala sa anumang server sa internet. Ang data ay lumalabas sa pamamagitan ng SOCKS5 proxy mismo, at walang kailangang midya ng external server sa buong pag-atake, samantalang ang proxy na ito ay itinuturing ng user bilang bahagi ng seguridad. Hindi kailangan ng attacker ng pahintulot sa pag-write sa repository; sapat na ang pag-submit ng isang public Issue. Ang mga tao ay nakikita sa GitHub rendering view ang isang normal na hiling para sa pakikipag-ugnayan, habang ang AI Agent ay binabasa ang buong masasamang source code.
Kinikilala pa ni Claude: ang vulnerability ay totoo
Isang mahalagang detalye sa pagpapahayag na ito ay mula sa Claude Code mismo. Ibinigay nang direkta ni Guan Aonan ang code para sa pagpapakita ng vulnerability kay Claude Code para sa teknikal na pagtataya. Pagkatapos ipatupad ang control test (ginagawa ang paghahadlang sa karaniwang hostname) at attack test (pag-iwas sa paghahadlang gamit ang null byte hostname), ibinigay ng Claude Code ang malinaw na konklusyon:
Ito ay tunay na pagbubypass ng network sandbox filter, hindi lang isang test artifact. Dapat mong i-report ito sa Anthropic sa https://github.com/anthropics/claude-code/issues.
Ang produktong sinubok ay sariling kinikilala ang katotohanan at seriedad ng butas, at kahit aktibong ibinigay ang path para sa pagrereport. Ang detalyeng ito ay buong sinulat ni Guan Aonan sa研究报告, at naging pinagmulan ng pamagat ng The Register—“Even Claude agrees hole in its sandbox was real and dangerous”.

Cover study by Guan Aonan — After being shown its own vulnerability, Claude Code admitted, “This is a real bypass of the network sandbox filter,” with red box highlighting the key confirmation statement
Ang sagot ni Anthropic ay kasunod ng limang buwang pagkamayabang
Ang sariling vulnerability ay nagdudulot ng pag-aalala, ngunit ang paraan ng pagtrato ng Anthropic ay mas dapat pag-aralan ng industriya.
Isinumite ni Guan Aonan ang detalyadong ulat tungkol sa pangalawang pag-iwas sa sandbox noong unang bahagi ng Abril 2026 sa pamamagitan ng HackerOne Bug Bounty Program (report number #3646509). Ang unang tugon ni Anthropic ay:
Salamat sa iyong ulat. Pagkatapos suriin ang pagkakasumite na ito, natukoy namin na ito ay isang duplicate ng isang umiiral na panloob na ulat na aming sinusubaybayan.
Agad na isinara ang ulat. Nang tanungin ni Guan Aonan ang plano para sa CVE number, sumagot ang Anthropic noong Abril 7:
Hindi pa namin pinagpasyahan kung papalabasin ang CVE para sa isyu na ito at hindi namin maibibigay ang timeline para sa desisyong iyon.
Ang paglilipat ay nakapag-ayos nang tahimik sa bersyon v2.1.90. Walang pahayag sa kaligtasan, walang CVE number, walang anumang entry sa pahina ng mga rekomendasyon sa kaligtasan ni Claude Code, at walang pagbanggit sa anumang pagpapabuti sa kaligtasan sa log ng pag-update. Ang isang buong paglilipat na umiiral mula sa unang araw ng paglunsad sa sandbox, tumagal ng 5.5 buwan, at sumasakop sa halos 130 bersyon, parang hindi nangyari sa mga user.
Hindi ito ang unang pagkakataon na lumabas ang ganitong paraan ng pagharap. Ang unang paglilipas (CVE-2025-66479) ay halos magkatulad: pinagbigyan lamang ng CVE ni Anthropic ang ilalim na librerya @anthropic-ai/sandbox-runtime (CVSS score na 1.8, “Low”), at hindi ang produktong pang-user na Claude Code; sa log ng pag-update, sinabi lamang na “Fixed proxy DNS resolution” (naiayos ang proxy DNS resolution), at hindi binanggit ang security vulnerability. Isinulat ni Guan Aonan sa kanyang研究报告: “Kapag may malubhang vulnerability sa React Server Components, natanggap ng React at Next.js ang kanilang sariling CVE, at naglabas ng security advisories ang Meta at Vercel, at sapat na binatid ng dalawang komunidad. Pumili ang Anthropic ng ibang paraan.” Hanggang sa kasalukuyan, hindi pa rin makakahanap ng anumang opisyal na security advisory sa paghahanap ng “Claude Code Sandbox CVE”.
Sa pagharap sa problema ng pagkakawala ng mga kredensyal, pinili ng Anthropic na i-block ang utos na ps, ngunit ang paggamit ng blacklist ay may likas na kahinaan—ang pag-block sa isang utos ay mayroong walang katapusang mga alternatibong daan para sa mga attacker. Ang tamang paraan ay malinaw na ipahayag kung anong mga kasangkapan ang kailangan lamang ng Agent. Sa pag-aaral na “Commentary and Control”, bagaman inataas ng Anthropic ang rating ng vulnerability sa CVSS 9.4 (Critical level) at isinama ito sa private bounty program, ang tagapagsalita ay nagsabi na “hindi ito idinisenyo para magkaroon ng proteksyon laban sa prompt injection”. Ang mga vendor ay nagtatampok ng default na tiwala sa kanilang sariling kakayahan sa seguridad, ngunit kulang sa deep defense sa antas ng sistema; kapag ipinakita ng vulnerability ang ganitong kakulangan, ang “design limitation” ay naging isang kakaibang kategorya—ito ay nagtanggap ng problema, ngunit sa ilang paraan ay naglilibre sa kanila mula sa obligasyon na maglabas ng security advisory.
Mas malawak na larawan ng industriya ay ang katotohanan na ang parehong problema ay hindi lamang nangyayari sa Anthropic. Sa paglalabas noong Abril ng pag-aaral na “Mga Komento at Kontrol”, ang Gemini CLI ng Google at ang Copilot Agent ng Microsoft GitHub ay pati na rin ay patotohanang may parehong puntos ng pag-atake, at lahat ng tatlong kumpanya ay kilala at pinagbago ang problema, ngunit wala sa kanilang naglabas ng pahayag sa kaligtasan o CVE number. Binigyan ng Anthropic ng $100 ang reward, binigyan ng Google ng $1,337, habang unang isinara ng GitHub ang ulat bilang “kilalang problema, hindi ma-reproduce,” at pagkatapos ay isinara ito bilang “impormatibo” pagkatapos makatanggap ng ebidensya ng reverse engineering, at binigyan ng $500. Kabuuan: $1,937 — at ang tatlong produkto na ito ay nakapalibot sa karamihan sa mga kumpanya sa Fortune 100.
Mas masamang magkaroon ng maling pagkakatiwala kaysa walang mga pagsasakatuparan ng kaligtasan. Ang mga gumagamit na walang sandbox ay alam na wala silang hangganan; ang mga may nasirang sandbox ay naniniwala na mayroon sila. Isang koponan na nagpapatakbo ng Claude Code at may whitelist ng domain ay hindi nakakita ng anumang panganib sa loob ng 5.5 buwan, at pagkatapos ng pag-update, ang pagtingin sa log ng pag-update ay magdudulot lamang sa konklusyon na ang sandbox ay laging gumagana nang maayos. Bukod dito, kapag ipinahayag ang panganib, ang kakulangan ng pahayag sa kaligtasan ay nagpapahiwatig na ang mga gumagamit ay hindi makakapag-decide kung sila ay naapektuhan o hindi, at walang batayan para sa pag-audit ng nakaraan.
Sa harap ng kasalukuyang sitwasyon, ang security community ay nagsisimula nang magkaroon ng pagkakasundo: hindi dapat isauli ang tiwala sa isang tanging implementasyon ng sandbox ng vendor. Ang SOCKS5 proxy ng Claude Code ay binuksan sa isang third-party npm package na mayroon lamang 10 GitHub Stars, at ang huling commit ay naiwan noong Hunyo 2024, na may security boundary na umaabot sa dalawang runtime—JavaScript at C—ngunit kulang sa pinakamababang pagpapatupad ng mga pamantayan sa puntos ng tiwala. Ang function na isValidHost() na idinagdag sa patch—na responsable sa pagtanggi sa null bytes, percent-encoding, CRLF, at iba pang ilegal na karakter—dapat nang umiiral mula sa unang araw ng paglunsad ng sandbox. Ipinresenta ni Guan Aonan ang isang praktikal na framework para sa pagtatanggol—ang pagtingin sa AI Agent bilang isang super employee na kailangang sumunod sa prinsipyo ng minimum privilege, na ang pangunahing diwa ay maraming layer ng pagtatanggol:

Ang seguridad ay binubuo ng transparensya sa bawat paglalathala at bawat patch, hindi sa brand narrative. Kapag ibinibigay ng mga user ang kanilang credentials sa Agent batay sa tiwala, may obligasyon ang manufacturer na siguraduhing epektibo ang kanilang pagsisilid at may obligasyon ring agad na iabiso kapag ito ay bumagsak. Parehong hindi natupad ng Anthropic sa Claude Code sandbox.
Ang pinakamasamang resulta ng sandbox ay hindi ang pagpigil sa kahit anong bagay, kundi ang pagbibigay ng isang maling pagkakataon ng kaligtasan. Mas masama ang paglalabas ng isang sandbox na may mga butas kaysa sa hindi paglalabas nito.” — sinabi ni Guan Aonan.
(Nauna sa钛媒体APP, may-akda | Silicon Valley Tech_news, editor | Jiao Yan)
Mga sanggunian:
1. oddguan.com — Ikalawang Pagkakataon, Parehong Sandbox: Isang Pagbubypass sa Anthropic Claude Code Network Sandbox ay Nagpapahintulot sa Pagbubuwas ng Data (Aonan Guan, 2026.05.20)
2. The Register — Kahit si Claude ay sumasang-ayon na ang butas sa kanyang sandbox ay totoo at mapanganib (2026.05.20)
