Anthropic Memutuskan Tidak Merilis Secara Publik Model AI Mythos Karena Risiko Keamanan Siber

Editor's Note: Ketika sebuah perusahaan AI memilih untuk tidak langsung meluncurkan model terkuatnya ke publik, itu sendiri sudah mengungkapkan banyak hal.

Mythos dari Anthropic telah mampu menyelesaikan seluruh proses serangan secara mandiri. Dari menemukan zero-day vulnerability, menulis kode eksploitasi, hingga menghubungkan beberapa langkah untuk masuk ke sistem inti, pekerjaan yang sebelumnya memerlukan kolaborasi jangka panjang dari hacker top kini dipersingkat menjadi hitungan jam atau bahkan menit.

Inilah mengapa, segera setelah model tersebut diungkap, Scott Bessent dan Jerome Powell mengadakan pertemuan dengan lembaga-lembaga Wall Street untuk meminta mereka menggunakannya untuk "melakukan自查". Ketika kemampuan mendeteksi kerentanan dilepaskan secara massal, sistem keuangan tidak lagi menghadapi serangan terpisah, tetapi pemindaian berkelanjutan.

Perubahan yang lebih mendalam terletak pada struktur pasokan. Di masa lalu, penemuan kerentanan bergantung pada pengalaman terbatas dari beberapa tim keamanan dan peretas, dengan ritme yang lambat dan tidak dapat direplikasi. Kini, kemampuan ini mulai dihasilkan secara massal oleh model, sehingga ambang batas serangan dan pertahanan turun bersamaan. Seorang sumber yang mengetahui hal ini memberikan perumpamaan yang langsung: memberikan model kepada peretas biasa sama saja dengan memberinya kemampuan operasi khusus.

Lembaga-lembaga telah mulai menggunakan alat yang sama untuk memeriksa ulang sistem mereka sendiri. JPMorgan Chase, Cisco Systems, dan lainnya sedang menguji di dalam negeri, berharap dapat memperbaiki kerentanan sebelum dimanfaatkan. Namun, kendala nyata belum berubah—kecepatan penemuan meningkat, tetapi perbaikan tetap lambat. “Kami sangat ahli dalam menemukan kerentanan, tetapi tidak ahli dalam memperbaikinya,” penilaian Jim Zemlin menyoroti ketidaksesuaian ritme.

Faktanya, karena Mythos bukan sekadar peningkatan kemampuan titik tunggal, tetapi mengintegrasikan, mempercepat, dan menurunkan ambang penggunaan kemampuan serangan yang sebelumnya terpisah dan terbatas. Setelah keluar dari lingkungan kendali, bagaimana cara kemampuan ini menyebar tidak memiliki pengalaman yang sudah ada sebagai acuan.

Bahayanya bukan terletak pada apa yang bisa dilakukannya, tetapi pada siapa yang bisa menggunakannya, dan dalam kondisi apa penggunaannya dilakukan.

Berikut adalah teks aslinya:

Pada sebuah sore hangat di Februari, selama istirahat di sebuah pernikahan di Bali, Nicholas Carlini sementara meninggalkan acara, membuka laptopnya, dan bersiap untuk “menciptakan kekacauan.” Pada saat itu, Anthropic baru saja membuka model kecerdasan buatan baru bernama Mythos untuk evaluasi internal, dan peneliti AI terkenal ini berniat melihat sejauh mana model tersebut bisa menimbulkan masalah.

Anthropic merekrut Carlini untuk melakukan "stress testing" terhadap model AI mereka sendiri, mengevaluasi apakah peretas mungkin memanfaatkannya untuk kegiatan mata-mata, pencurian, atau perusakan. Selama menghadiri pernikahan India di Bali, Carlini terkejut dengan kemampuan model tersebut.

Dalam hitungan jam, ia menemukan berbagai teknik yang dapat digunakan untuk menembus sistem yang umum digunakan secara global. Setelah kembali ke kantor Anthropic di pusat kota San Francisco, ia menemukan lebih lanjut: Mythos sudah mampu menghasilkan alat serangan yang kuat secara mandiri, bahkan termasuk metode serangan terhadap Linux—sistem open source yang menjadi fondasi sebagian besar sistem komputasi modern.

Mythos melakukan "perampokan bank digital": ia mampu melewati protokol keamanan, memasuki sistem jaringan melalui pintu depan, lalu membobol brankas digital untuk mengambil aset daring di dalamnya. Dulu, AI hanya bisa "membobol kunci", sekarang ia telah mampu merencanakan dan menyelesaikan seluruh "perampokan".

Carlini dan sebagian rekan mulai mengirimkan peringatan ke dalam perusahaan tentang temuan mereka. Sementara itu, mereka hampir setiap hari menemukan kerentanan tingkat tinggi hingga mematikan dalam sistem yang terdeteksi oleh Mythos—masalah yang biasanya hanya dapat ditemukan oleh peretas paling top di dunia.

Mythos

Sementara itu, tim internal Anthropic bernama «Frontier Red Team»—yang terdiri dari 15 karyawan dan disebut «Ants»—juga melakukan pengujian serupa. Tugas tim ini adalah memastikan bahwa model perusahaan tidak digunakan untuk membahayakan manusia. Mereka membawa anjing robot ke gudang, menguji bersama insinyur untuk melihat apakah chatbot dapat digunakan untuk mengendalikan perangkat ini secara jahat; serta bekerja sama dengan ahli biologi untuk mengevaluasi apakah model tersebut berpotensi digunakan untuk membuat senjata biologis.

Dan kali ini, mereka secara bertahap menyadari bahwa risiko terbesar yang dibawa oleh Mythos berasal dari bidang keamanan siber. "Beberapa jam setelah mendapatkan model, kami langsung tahu bahwa ini berbeda," kata Logan Graham, yang bertanggung jawab atas tim tersebut.

Model sebelumnya, Opus 4.6, telah menunjukkan kemampuan membantu manusia memanfaatkan kerentanan perangkat lunak. Namun, Graham menunjukkan bahwa Mythos kini dapat "melakukannya sendiri" untuk memanfaatkan kerentanan tersebut. Ini menciptakan risiko pada tingkat keamanan nasional, dan ia pun memperingatkan jajaran manajemen atas hal ini. Hal ini membuatnya harus menghadapi situasi yang rumit: menjelaskan kepada manajemen bahwa mesin pendapatan penting berikutnya perusahaan mungkin terlalu berbahaya untuk dirilis ke publik.

Jared Kaplan, co-founder dan Chief Science Officer Anthropic, mengatakan bahwa selama pelatihan Mythos, ia terus memantau perkembangannya secara "sangat dekat". Pada Januari, ia mulai menyadari bahwa kemampuan model ini dalam menemukan kerentanan sistem luar biasa kuat. Sebagai seorang fisikawan teoretis, Kaplan perlu menilai apakah kemampuan ini hanyalah "fenomena teknis yang menarik" atau "masalah nyata yang sangat terkait dengan infrastruktur internet". Pada akhirnya, ia menyimpulkan bahwa ini adalah yang terakhir.

Mythos

Dalam satu atau dua minggu akhir Februari hingga awal Maret, Kaplan dan rekan pendiri Sam McCandlish terus mempertimbangkan apakah harus merilis model ini.

Pada minggu pertama Maret, tim puncak perusahaan—termasuk CEO Dario Amodei, Presiden Daniela Amodei, dan Chief Information Security Officer Vitaly Gudanets—mengadakan pertemuan untuk mendengarkan laporan dari Kaplan dan McCandlish.

Kesimpulan mereka adalah: Mythos terlalu berisiko untuk dirilis secara luas. Namun, Anthropic tetap harus mengizinkan sejumlah perusahaan, bahkan termasuk pesaing, untuk mengujinya.

“Kami segera menyadari bahwa kali ini kami harus mengambil pendekatan yang cukup berbeda, ini bukan peluncuran produk biasa,” kata Kaplan.

Pada minggu pertama Maret, perusahaan akhirnya mencapai kesepakatan: menyetujui peluncuran Mythos sebagai alat pertahanan keamanan siber.

Mythos

Reaksi pasar hampir seketika. Pada hari yang sama Anthropic mengungkapkan keberadaan Mythos, Menteri Keuangan AS Scott Bessent dan Gubernur Federal Reserve Jerome Powell segera mengumpulkan para pemimpin institusi utama Wall Street untuk mengadakan pertemuan darurat di Washington. Pesan yang disampaikan sangat jelas: segera gunakan Mythos untuk mengidentifikasi kerentanan dalam sistem Anda.

Menurut orang-orang yang dekat dengan para eksekutif yang hadir (minta anonimitas karena pembicaraan bersifat pribadi), tingkat seriusitas pertemuan tersebut terlihat jelas—para peserta bahkan menolak mengungkapkan isi pertemuan kepada sebagian konselor inti.

Peringatan mendesak dari pejabat Gedung Putih mengenai potensi Mythos sebagai alat peretas, serta sikap mereka yang menyarankan "menggunakannya untuk pertahanan," menunjukkan perubahan yang lebih mendalam: kecerdasan buatan sedang dengan cepat menjadi kekuatan penentu di bidang keamanan siber. Anthropic telah secara terbatas membuka Mythos untuk sejumlah institusi, termasuk Amazon Web Services, Apple, dan JPMorgan Chase, untuk pengujian; sementara lembaga pemerintah juga menunjukkan minat yang besar.

Sebelum diluncurkan secara terbuka, Anthropic telah memberikan laporan komprehensif kepada pejabat tinggi pemerintah AS mengenai kemampuan versi pratinjau Mythos, termasuk potensi penggunaannya dalam serangan dan pertahanan siber. Sambil itu, perusahaan juga terus berkomunikasi dengan pemerintah sejumlah negara. Seorang karyawan Anthropic yang meminta anonimitas karena terkait urusan internal mengungkapkan hal ini.

Pesaing OpenAI juga segera menyusul, pada hari Selasa mengumumkan akan meluncurkan alat untuk menemukan kerentanan perangkat lunak—GPT-5.4-Cyber.

Dalam pengujian versi awal, para peneliti menemukan puluhan kasus perilaku "mengkhawatirkan", termasuk tidak mematuhi instruksi manusia, dan bahkan dalam kasus yang sangat jarang, mencoba menyembunyikan perilaku mereka setelah melanggar instruksi.

Saat ini, Anthropic belum secara resmi merilis Mythos sebagai alat keamanan siber, dan para peneliti eksternal juga belum secara memadai memverifikasi kemampuannya. Namun, keputusan langka sebelumnya oleh perusahaan untuk "membatasi akses" mencerminkan konsensus yang semakin berkembang di dalam industri dan pemerintah: AI sedang membentuk ulang struktur ekonomi keamanan siber—secara signifikan mengurangi biaya menemukan kerentanan, memperpendek waktu persiapan serangan, dan menurunkan ambang teknis untuk beberapa jenis serangan.

Anthropic juga memperingatkan bahwa kemampuan otonom yang lebih kuat dari Mythos sendiri membawa risiko. Dalam pengujian, tim mengamati beberapa kasus yang mengkhawatirkan: model tidak mematuhi perintah, bahkan mencoba menyembunyikan jejak setelah melanggar aturan. Dalam satu insiden, model secara mandiri merancang serangkaian jalur serangan multi-langkah untuk "melarikan diri" dari lingkungan terbatas, mendapatkan akses internet yang lebih luas, dan secara aktif mempublikasikan konten.

Di dunia nyata, perangkat lunak yang digunakan oleh aplikasi perbankan hingga sistem rumah sakit sering kali memiliki kerentanan kode yang kompleks dan tersembunyi, yang sering memerlukan waktu berminggu-minggu bahkan berbulan-bulan bagi para profesional untuk menemukannya. Jika peretas memanfaatkan kerentanan ini lebih dulu, hal itu dapat menyebabkan kebocoran data atau serangan ransomware dengan konsekuensi serius.

Namun, banyak tokoh penting mempertanyakan kemampuan sebenarnya Mythos dan risiko potensialnya. Penasihat AI Gedung Putih, David Sacks, menyatakan di platform sosial X: "Semakin banyak orang yang mulai meragukan apakah Anthropic adalah 'bocah yang menjerit 'serigala!' di industri AI. Jika ancaman yang dibawa Mythos ternyata tidak terwujud, perusahaan akan menghadapi masalah reputasi serius."

Namun kenyataannya, peretas sudah mulai memanfaatkan model bahasa besar untuk melakukan serangan kompleks. Sebagai contoh, sebuah kelompok mata-mata siber pernah menggunakan model Claude dari Anthropic untuk mencoba menyusup ke sekitar 30 target; penyerang lain memanfaatkan AI untuk mencuri data dari lembaga pemerintah, menyebar ransomware, bahkan dengan cepat membobol ratusan alat firewall yang digunakan untuk perlindungan data.

Menurut seorang sumber yang mengetahui hal ini, munculnya Mythos membawa ketidakpastian tanpa preseden dalam pandangan pejabat terkait keamanan nasional Amerika—cara menilai risiko keamanan siber sendiri menjadi lebih sulit. Jika model ini diberikan kepada peretas individu, efeknya bisa setara dengan meningkatkan seorang tentara biasa langsung menjadi anggota pasukan khusus.

Sementara itu, model ini juga dapat menjadi "penguat kemampuan": memberikan organisasi peretas kriminal kemampuan serangan setara tingkat negara kecil, serta memungkinkan peretas intelijen dan militer negara-negara menengah dan kecil untuk melaksanakan serangan siber yang sebelumnya hanya dapat dilakukan oleh negara besar.

Rob Joyce, mantan kepala keamanan siber di National Security Agency AS, mengatakan: "Saya benar-benar percaya bahwa, dalam jangka panjang, AI akan membuat kita lebih aman dan lebih terlindungi. Namun, di antara sekarang dan titik tertentu di masa depan, akan ada periode 'masa gelap', di mana AI ofensif akan memiliki keunggulan jelas—mereka yang tidak membangun perlindungan dasar yang kuat akan menjadi yang pertama kali diretas."

Perlu dicatat bahwa Mythos bukan satu-satunya model yang memiliki kemampuan semacam ini. Beberapa lembaga telah menggunakan model bahasa besar untuk menemukan kerentanan, termasuk versi awal Claude dan Big Sleep.

Mythos

Menurut orang tersebut, kerentanan "zero-day" yang dulu memerlukan beberapa hari bahkan berminggu-minggu untuk diidentifikasi, serta proses pembuatan kode eksploitasi untuknya, kini dapat diselesaikan dalam waktu secepat satu jam, bahkan beberapa menit, berkat AI. Yang dimaksud dengan "zero-day" adalah kelemahan keamanan yang belum terdeteksi oleh pihak pertahanan, sehingga hampir tidak ada waktu untuk diperbaiki.

Saat ini, fokus JPMorgan terutama pada bidang rantai pasokan dan perangkat lunak sumber terbuka, dan telah menemukan beberapa kerentanan, sekaligus melaporkan masalah tersebut kepada pemasok terkait.

CEO perusahaan Jamie Dimon mengatakan dalam konferensi telepon laporan keuangan bahwa munculnya Mythos "menunjukkan masih banyak celah yang perlu diperbaiki."

Mythos

Menurut seorang sumber yang mengetahui hal ini, JPMorgan Chase telah berkomunikasi dengan Anthropic untuk membahas pengujian model tersebut sebelum keberadaan Mythos diketahui publik. Sumber tersebut meminta anonimitas karena tidak berwenang untuk berbicara secara terbuka. JPMorgan Chase menolak memberikan komentar.

Saat ini, bank-bank Wall Street dan perusahaan teknologi lainnya juga mencoba menggunakan Mythos untuk memperbaiki kelemahan sistem sebelum peretas menemukan celahnya. Menurut Bloomberg, lembaga keuangan seperti Goldman Sachs, Citigroup, Bank of America, dan Morgan Stanley telah menguji teknologi ini secara internal.

Karyawan Cisco Systems sedang sangat waspada terhadap satu masalah: apakah penyerang akan memanfaatkan AI untuk mencari celah dalam perangkat lunak perangkat jaringan yang beroperasi secara global—perangkat tersebut mencakup router, firewall, dan modem. Wakil Chief Security and Trust Officer Cisco, Anthony Grieco, mengatakan ia sangat khawatir AI akan mempercepat serangan peretas terhadap perangkat yang telah berakhir masa siklus hidupnya—perangkat yang tidak lagi akan menerima pembaruan dukungan dari Cisco.

Namun, cara memperbaiki kerentanan yang ditemukan oleh AI tetap menjadi tantangan jangka panjang. Proses ini dikenal sebagai “security patching,” yang seringkali mahal dan memakan waktu lama bagi organisasi, sehingga banyak lembaga memilih mengabaikan kerentanan tersebut. Serangan bencana seperti yang dialami Equifax—di mana data sekitar 147 juta orang dicuri—terjadi karena kerentanan yang sudah diketahui tidak diperbaiki tepat waktu.

Mythos

Meskipun pernah dinyatakan sebagai "ancaman rantai pasok" oleh pemerintahan Trump setelah menolak membantu dalam pengawasan massal terhadap warga negara Amerika, perusahaan ini saat ini tetap berkomunikasi dan berkolaborasi dengan lembaga federal.

Departemen Keuangan AS minggu ini sedang berusaha memperoleh akses terhadap Mythos. Menteri Keuangan Scott Bessent menyatakan bahwa model ini akan membantu AS mempertahankan keunggulan atas negara-negara lain di bidang kecerdasan buatan.

Mythos

Dalam sebuah pengujian, Mythos menulis kode serangan browser yang menghubungkan empat kerentanan berbeda menjadi satu rantai eksploitasi lengkap—tindakan yang secara inheren sangat menantang bagi peretas manusia. Laporan penelitian keamanan siber menunjukkan bahwa "rantai kerentanan" semacam ini seringkali dapat menembus batas sistem yang sangat aman, mirip dengan cara yang digunakan dalam serangan Stuxnet terhadap mesin sentrifugal fasilitas nuklir Iran.

Selain itu, menurut Anthropic, Mythos bahkan dapat mengenali dan memanfaatkan 'zero-day vulnerabilities' di semua browser utama jika diberi instruksi yang jelas.

Anthropic menyatakan bahwa mereka sebelumnya memanfaatkan Mythos untuk menemukan kerentanan dalam kode Linux. Jim Zemlin menunjukkan bahwa Linux «mendukung sebagian besar sistem komputasi saat ini», mulai dari smartphone Android, router internet, hingga superkomputer NASA, hampir di mana-mana. Mythos mampu secara mandiri menemukan berbagai kelemahan dalam kode sumber terbuka, dan jika dimanfaatkan, penyerang bahkan dapat mengambil alih seluruh mesin.

Saat ini, puluhan orang dari Linux Foundation telah mulai menguji Mythos. Menurut Zemlin, satu masalah kunci adalah: apakah model Anthropic dapat memberikan wawasan yang cukup berharga untuk membantu pengembang menulis perangkat lunak yang lebih aman sejak awal, sehingga mengurangi munculnya kerentanan.

“Kami sangat ahli dalam menemukan kerentanan,” katanya, “tetapi buruk dalam memperbaikinya.”