Alat Pemrograman AI Claude Code Ditemukan dengan Kerentanan Keamanan Serius

Claude Code

Anthropic yang berposisi sebagai "keamanan terlebih dahulu", sandbox jaringan alat pengembangan intinya, Claude Code, selama lima bulan terakhir tidak pernah benar-benar aman.

Peneliti keamanan independen Aonan Guan merilis penelitian terbaru pada 20 Mei, mengungkapkan kerentanan kedua yang dapat sepenuhnya melewati sandbox jaringan Claude Code—serangan injection byte kosong dalam protokol SOCKS5 yang memungkinkan proses di dalam sandbox mengakses host apa pun yang secara eksplisit dilarang oleh kebijakan pengguna. Ini berarti sejak fitur sandbox diluncurkan pada Oktober 2025 hingga kini, selama sekitar 5,5 bulan dan 130 versi rilis, setiap versi Claude Code memiliki cacat keamanan yang dapat sepenuhnya dilewati. Ini adalah pelanggaran lengkap kedua oleh peneliti yang sama terhadap pertahanan yang sama.

Respons Anthropic terhadap hal ini adalah diam: tidak ada pemberitahuan keamanan, tidak ada nomor CVE, tidak ada pemberitahuan kepada pengguna. Kerentanan diperbaiki secara diam-diam dalam versi 1 April, dan log pembaruan tidak menyebutkan apa pun terkait keamanan. Artinya, seorang pengguna yang masih menjalankan versi lama sama sekali tidak menyadari bahwa sandbox yang dikonfigurasinya sejak awal tidak berfungsi.

Dua kunci untuk pintu yang sama

Claude Code adalah asisten pemrograman AI yang diluncurkan oleh Anthropic pada awal 2025, dengan posisi sebagai "insinyur AI yang berada di terminal". Berbeda dengan pelengkapan kode berbasis obrolan tradisional, Claude Code memiliki izin baca-tulis terhadap repositori kode pengguna dan kemampuan eksekusi perintah, sehingga mampu secara mandiri menyelesaikan serangkaian tugas seperti menavigasi kode, mengedit file, dan menjalankan pengujian. Intervensi mendalam ini juga berarti risiko keamanan yang sangat tinggi—jika model diretas melalui serangan prompt injection, penyerang akan memperoleh kemampuan setara dengan izin terminal pengguna, termasuk membaca variabel lingkungan lokal, menjalankan perintah sistem sewenang-wenang, dan mengakses sumber daya jaringan internal.

Untuk menyeimbangkan keamanan dan efisiensi, Anthropic memperkenalkan fitur sandbox web (v2.0.24) pada Oktober 2025, yang memungkinkan pengguna menetapkan daftar izin domain melalui file konfigurasi untuk membatasi akses jaringan eksternal dari lingkungan eksekusi AI. Misalnya, setelah mengonfigurasi allowedDomains: [“*.google.com”], Claude Code hanya dapat mengakses Google dan subdomain-nya, sementara semua lalu lintas lainnya diblokir. Dokumentasi resmi secara jelas menjanjikan: “Array kosong sama dengan melarang semua akses jaringan.”

Mekanisme ini diimplementasikan oleh proxy SOCKS5: runtime sandbox bawah ( @anthropic-ai/sandbox-runtime ) memulai server proxy, proses di dalam sandbox tidak membuat koneksi jaringan secara langsung, tetapi melalui proxy yang meneruskan permintaan, dan proxy melakukan penyaringan domain berdasarkan daftar izin yang dikonfigurasi pengguna di settings.json . Mekanisme sandbox tingkat sistem operasi—sandbox-exec di macOS dan bubblewrap di Linux—dengan benar membatasi Agent pada alamat loopback lokal, sementara keputusan keluar sepenuhnya diserahkan ke proxy SOCKS5 ini.

Claude Code

Grafik arsitektur sandbox Claude Code yang ditampilkan di blog resmi Anthropic—perintah pengguna melewati proxy SOCKS/HTTP sebelum mencapai sandbox, di mana operasi file dan akses jaringan di dalam sandbox dikendalikan secara ketat.

Masalahnya terletak pada implementasi agen ini. Dua penelitian keamanan independen telah membuktikan bahwa ia dapat dilewati sepenuhnya.

Claude Code

Garis waktu mengungkap masalah yang lebih dalam: v2.0.55 yang dirilis pada 26 November 2025 memperbaiki bypass pertama, tetapi bypass kedua sudah ada sejak hari pertama sandbox diluncurkan dan tetap ada dalam versi tersebut. Kedua kerentanan ini tumpang tindih dalam garis waktu; dari hari pertama peluncuran fitur sandbox hingga kerentanan terakhir diperbaiki, tidak ada versi yang aman. Anthropic menyatakan di blog resmi bahwa sandbox "menjamin bahwa bahkan jika terjadi prompt injection, dampaknya benar-benar terisolasi", tetapi keberadaan kedua bypass ini secara langsung membantah janji tersebut.

"Laporan eksternal satu kali adalah keberuntungan. Dua kali adalah masalah kualitas implementasi." — laporan Gu Aonan menyatakan.

A complete bypass of a zero byte

Prinsip teknis dari bypass kedua tidak rumit, tetapi integritas rantai serangan patut diperhatikan.

Pengguna telah mengonfigurasi daftar putih jaringan, misalnya hanya mengizinkan akses ke *.google.com. Proxy SOCKS5 Claude Code menggunakan metode endsWith() JavaScript untuk mencocokkan akhiran nama host saat menerima permintaan koneksi. Penyerang hanya perlu menyisipkan byte kosong ke dalam nama host—membuat string berbentuk attacker-host.com\x00.google.com. JavaScript menganggap byte kosong sebagai karakter UTF-16 biasa, sehingga endsWith(".google.com") mengembalikan true, dan proxy mengizinkan koneksi. Namun, string yang sama dilewatkan ke fungsi C bawah tanah getaddrinfo() untuk resolusi DNS, di mana byte kosong dianggap sebagai penghenti string, sehingga yang benar-benar diresolusi adalah attacker-host.com. Byte yang sama, dua lapis kode, memberikan dua interpretasi berbeda. Filter menganggap Anda mengakses Google, sementara resolver DNS tahu Anda sedang terhubung ke server penyerang.

Ini merupakan serangan "perbedaan parser" klasik, yang termasuk dalam kategori teknis yang sama dengan HTTP Request Smuggling yang ditemukan pada tahun 2005 (CWE-158 / CWE-436). Intinya adalah ketika data yang sama melewati dua komponen dengan aturan interpretasi semantik yang berbeda, penyerang dapat memanfaatkan perbedaan ini agar satu lapisan membuat keputusan "aman", sementara lapisan lainnya menjalankan operasi "berbahaya". Kerentanan semacam ini sering muncul di bidang keamanan jaringan, dan pelajaran utamanya selalu sama: setiap string yang melewati batas kepercayaan harus melalui normalisasi dan validasi yang ketat, bukan hanya mengandalkan asumsi bahwa lapisan atas sudah memeriksanya.

Guan Aonan mereproduksi kerentanan menggunakan dua skrip Node.js yang diminimalkan: skrip kontrol memulai koneksi SOCKS5 dengan hostname biasa dan mengembalikan BLOCKED; skrip serangan menyisipkan byte kosong ke dalam hostname dan mengembalikan BYPASSED rep=0x00—yang berarti proxy berhasil membangun koneksi dan saluran keluar telah dibuka. Claude Code sendiri mengonfirmasi hasil ini.

Claude Code

Reproduksi kerentanan lengkap pada empat langkah yang ditandai merah di Claude Code v2.1.86—konfirmasi strategi, pemblokiran biasa, bypass byte kosong, konfirmasi oleh Claude sendiri

Sementara itu, celah sandbox ini, ketika dikombinasikan dengan serangan injection prompt "Komentar dan Kontrol" yang diungkapkan oleh Guan Aonan pada bulan April, membentuk rantai serangan lengkap (lihat: Tiga lapis pertahanan masih belum cukup, satu judul PR saja bisa mencuri kunci API Anda: Celah keamanan AI Agent muncul kembali). Penelitian "Komentar dan Kontrol" telah membuktikan bahwa ketiga alat pemrograman AI tersebut memiliki permukaan serangan injection prompt, tetapi titik masuknya berbeda: Claude Code hanya melalui judul PR, Gemini CLI melalui komentar atau isi Issue, sedangkan Copilot Agent memanfaatkan komentar HTML untuk melakukan injection tersembunyi. Sebagai contoh Claude Code, judul PR-nya langsung digabungkan ke dalam template prompt tanpa penyaringan atau escape, sehingga model tidak dapat membedakan niat manusia dengan injection jahat.

Menggabungkan keduanya—perintah tersembunyi yang membuat Agent menjalankan kode serangan di dalam sandbox, injeksi byte kosong untuk menembus pemblokiran jaringan—kunci API, kredensial AWS, token GitHub, dan data titik akhir API internal dalam variabel lingkungan, semuanya dapat dikirimkan ke server mana pun di internet. Data mengalir keluar melalui proxy SOCKS5 itu sendiri, seluruh serangan tidak memerlukan perantara server eksternal, padahal proxy inilah yang menjadi komponen yang dipercaya pengguna sebagai batas keamanan. Penyerang bahkan tidak memerlukan izin penulisan repositori, cukup dengan mengirimkan sebuah Issue publik. Pemeriksa manusia melihat permintaan kolaborasi normal di tampilan render GitHub, sementara Agent AI membaca kode sumber jahat lengkap.

Claude pun mengakui: kerentanan tersebut nyata

Detail kunci dalam pengungkapan ini berasal dari Claude Code itu sendiri. Guan Aonan langsung memberikan kode reproduksi kerentanan kepada Claude Code untuk dijalankan, meminta penilaian teknis darinya. Setelah menjalankan pengujian kontrol (nama host biasa diblokir) dan pengujian serangan (nama host byte kosong melewati pemblokiran), Claude Code memberikan kesimpulan jelas:

Ini adalah bypass nyata terhadap filter sandbox jaringan, bukan hanya artefak pengujian. Anda harus melaporkan ini ke Anthropic di https://github.com/anthropics/claude-code/issues.

Produk yang diuji sendiri mengonfirmasi keaslian dan tingkat keparahan kerentanan tersebut, bahkan secara aktif memberikan jalur pelaporan. Detail ini dicatat secara lengkap oleh Guan Aonan dalam laporan penelitian, dan menjadi sumber judul berita The Register—“Even Claude agrees hole in its sandbox was real and dangerous” (Bahkan Claude mengakui, kerentanan di sandbox-nya adalah nyata dan berbahaya).

Claude Code

Cover of Gu Aonan's research — After being shown its own vulnerability, Claude Code admitted, "This is a genuine bypass of the network sandbox filter," with a red box highlighting the key confirmation statement.

Respons Anthropic setelah lima bulan diam

The vulnerability itself is concerning, but Anthropic's handling of it deserves greater industry scrutiny.

Guan Aonan pada awal April 2026 mengirimkan laporan rinci tentang bypass sandbox kedua ke Anthropic melalui program bounty kerentanan HackerOne (laporan #3646509). Tanggapan awal Anthropic adalah:

Terima kasih atas laporan Anda. Setelah meninjau pengiriman ini, kami menentukan bahwa ini adalah duplikat dari laporan internal yang sudah kami lacak.

Laporan segera ditutup. Ketika Guan Aonan menanyakan rencana nomor CVE, Anthropic menjawab pada 7 April:

Kami belum memutuskan apakah akan menerbitkan CVE untuk masalah ini dan tidak dapat memberikan jadwal terkait keputusan tersebut.

Setelah itu, kerentanan diperbaiki secara diam-diam di versi v2.1.90. Tidak ada pemberitahuan keamanan, tidak ada nomor CVE, tidak ada entri apa pun di halaman saran keamanan Claude Code, dan log pembaruan tidak menyebutkan deskripsi terkait keamanan apa pun. Sebuah bypass lengkap yang ada sejak hari pertama peluncuran sandbox, berlangsung selama 5,5 bulan, dan mencakup sekitar 130 versi, seolah-olah tidak pernah terjadi bagi pengguna.

Pola penanganan ini bukan yang pertama kali terjadi. Pendekatan pertama untuk menghindari (CVE-2025-66479) hampir identik: Anthropic hanya memberikan CVE kepada perpustakaan dasar @anthropic-ai/sandbox-runtime (skor CVSS hanya 1.8, "Rendah"), bukan produk pengguna seperti Claude Code; dalam catatan pembaruan tertulis "Fixed proxy DNS resolution" (memperbaiki resolusi DNS proxy), tanpa menyebut kerentanan keamanan. Gua Aonan menulis dalam laporan penelitiannya: "Ketika ada kerentanan serius pada React Server Components, React dan Next.js masing-masing mendapatkan CVE terpisah, Meta dan Vercel merilis pemberitahuan keamanan, dan kedua komunitas tersebut diberi informasi secara memadai. Anthropic memilih pendekatan berbeda." Hingga saat ini, pencarian "Claude Code Sandbox CVE" masih tidak menemukan pemberitahuan keamanan resmi apa pun.

Dalam menangani masalah pencurian kredensial, Anthropic memilih untuk memblokir perintah ps, tetapi pendekatan daftar hitam secara inheren memiliki kelemahan—memblokir satu perintah, penyerang memiliki banyak jalur alternatif. Pendekatan yang benar adalah dengan secara jelas menyatakan alat-alat apa saja yang dibutuhkan oleh Agent. Dalam penelitian “Komentar dan Kontrol”, Anthropic memang meningkatkan peringatan kerentanan menjadi CVSS 9,4 (tingkat Critical) dan memindahkannya ke program hadiah pribadi, tetapi juru bicara menyatakan “alat ini dirancang tanpa perlindungan terhadap prompt injection”. Pabrikan secara default mempercayai kemampuan keamanan model mereka sendiri, namun gagal menerapkan pertahanan mendalam pada tingkat arsitektur sistem; ketika kerentanan mengungkapkan kekurangan ini, “keterbatasan desain” menjadi klasifikasi yang nyaman—ia mengakui masalah tersebut, tetapi secara sebagian melepaskan kewajiban untuk mengeluarkan pemberitahuan keamanan.

Pemandangan industri yang lebih luas adalah, masalah yang sama tidak hanya terbatas pada Anthropic. Penelitian “Komentar dan Kontrol” yang diungkap pada bulan April membuktikan bahwa Gemini CLI dari Google dan Copilot Agent dari GitHub Microsoft juga memiliki titik serangan yang sama; ketiga perusahaan tersebut mengonfirmasi dan memperbaikinya, tetapi tidak ada yang merilis pemberitahuan keamanan atau nomor CVE. Anthropic membayar hadiah 100 dolar, Google membayar 1337 dolar, dan GitHub awalnya menutup laporan dengan alasan “masalah yang sudah diketahui, tidak dapat direproduksi”, namun setelah menerima bukti reverse engineering, menutupnya dengan label “informasional” dan memberikan hadiah 500 dolar. Jumlah totalnya 1937 dolar—dan ketiga produk ini mencakup sebagian besar perusahaan dalam daftar Fortune 100.

Rasa aman yang salah lebih berbahaya daripada tidak ada langkah keamanan sama sekali. Pengguna tanpa sandbox tahu bahwa mereka tidak memiliki batasan; pengguna dengan sandbox yang rusak mengira mereka memilikinya. Sebuah tim yang menjalankan Claude Code dan mengonfigurasi daftar izin domain selama 5,5 bulan tidak menyadari risikonya, dan setelah pembaruan, melihat catatan pembaruan hanya akan menyimpulkan bahwa sandbox selalu berfungsi dengan baik. Selain itu, ketika kerentanan diungkapkan, tidak adanya pemberitahuan keamanan berarti pengguna tidak dapat menentukan apakah mereka pernah terdampak, serta tidak memiliki dasar untuk audit retrospektif.

Menghadapi situasi ini, komunitas keamanan mulai mencapai konsensus: tidak boleh mempercayakan keamanan secara tunggal pada implementasi sandbox pabrikan. Proxy SOCKS5 Claude Code dibangun di atas paket npm pihak ketiga yang hanya memiliki 10 Star di GitHub, dengan commit terakhir berhenti pada Juni 2024, dengan batas keamanan melintasi dua runtime JavaScript dan C, namun gagal menyediakan penanganan normatif paling dasar di titik persimpangan kepercayaan. Fungsi isValidHost() yang ditambahkan dalam patch perbaikan—yang bertugas menolak karakter ilegal seperti byte kosong, encoding persen, CRLF—seharusnya sudah ada sejak hari pertama sandbox diluncurkan. Guan Aonan mengusulkan kerangka pertahanan pragmatis—menganggap AI Agent sebagai karyawan super yang harus mematuhi prinsip hak akses minimum, dengan inti utama pada pertahanan berlapis:

Claude Code

Reputasi keamanan dibangun atas transparansi setiap pengungkapan dan setiap patch, bukan narasi merek. Ketika pengguna memberikan kredensial kepada Agent berdasarkan kepercayaan, produsen berkewajiban memastikan pertahanan efektif, serta berkewajiban memberi tahu segera saat gagal. Kedua hal ini tidak dilakukan Anthropic pada sandbox Claude Code.

“Hasil terburuk dari sandbox bukanlah mencegah sesuatu, tetapi memberikan perasaan aman yang salah. Merilis sandbox yang memiliki kerentanan lebih buruk daripada tidak merilis sandbox sama sekali.” — kata Guan Aonan.

(Artikel ini pertama kali dipublikasikan di aplikasi Titanium Media, penulis | Silicon Valley Tech_news, editor | Jiao Yan)

Referensi:

1. oddguan.com — Kali Kedua, Sandbox yang Sama: Bypass Sandbox Jaringan Anthropic Claude Code Lain Memungkinkan Eksfiltrasi Data (Aonan Guan, 2026.05.20)

2. The Register — Bahkan Claude mengakui lubang di sandbox-nya nyata dan berbahaya (2026.05.20)