Anthropic Menghadapi Penolakan Pemerintah Terhadap Model AI Fable

Penulis: Ben Thompson

Diterjemahkan oleh Deep潮 TechFlow

Panduan DeepChain: Model baru Anthropic, Fable, dihentikan darurat oleh pemerintah AS hanya dua bulan setelah peluncurannya, tampaknya karena "kebocoran keamanan", tetapi sebenarnya mengungkap perang ganda antara laboratorium AI dengan pemerintah dan industri perangkat lunak. Perusahaan yang menjadikan "keamanan" sebagai nilai jualnya sedang mengubah narasi keamanan menjadi parit bisnis, sementara yang sebenarnya mereka rebut adalah data pengguna dari perusahaan-perusahaan seperti Microsoft.

Saya memahami posisi para penghina yang selalu menganggap pernyataan publik Anthropic—terutama saat meluncurkan model—adalah upaya pemasaran untuk menyebar kepanikan. Dua bulan lalu, Anthropic mengumumkan peluncuran Mythos Preview, menyatakan bahwa model ini terlalu berbahaya untuk dirilis publik, khususnya karena kemampuan keamanan siber yang kuat. Kemudian dua bulan setelahnya, perusahaan secara resmi merilis Fable, versi Mythos yang dilengkapi berbagai pengaman keamanan.

Berdasarkan pengalaman penggunaan saya yang terbatas, Fable memang merupakan model yang sangat luar biasa. Saat ini, selain performa pemrograman, sulit untuk mengevaluasi model secara objektif, tetapi masih ada persepsi subjektif; saya merasa pengalaman berinteraksi dengan Fable sangat luar biasa; ia membuat model-model lain, termasuk GPT 5.5 dan Opus 4.8, tampak kecil dan bodoh. Saya sebelumnya hanya merasakan hal ini dua kali, yaitu saat menggunakan GPT-4 dan Grok 4, keduanya mewakili generasi baru dalam hal skala dan kompleksitas model dasar; saya merasa Fable berasal dari pre-training baru dan merupakan yang pertama dari generasi baru tersebut.

Oleh karena itu, saya sepenuhnya menerima bahwa Fable/Mythos memang lebih unggul dalam mengidentifikasi dan memanfaatkan masalah keamanan, sehingga Anthropic berhati-hati dalam meluncurkannya masuk akal. Namun, masalah dengan peluncuran publik adalah bahwa perlindungan dapat dibypass, dan jelas hal ini terjadi tak lama setelah peluncuran.

Anthropic kembali berhadapan dengan pemerintah Amerika Serikat

Apa yang terjadi selanjutnya agak tidak jelas. Anthropic menulis dalam posting blog:

Pemerintah AS mengutip wewenang keamanan nasional untuk menerbitkan perintah kendali ekspor, menghentikan akses semua warga negara asing terhadap Fable 5 dan Mythos 5, baik di dalam maupun di luar AS, termasuk karyawan asing Anthropic. Efek praktis dari perintah ini adalah kami harus secara mendadak menonaktifkan akses Fable 5 dan Mythos 5 untuk semua pelanggan guna memastikan kepatuhan. Akses terhadap semua model Anthropic lainnya tidak terpengaruh.

Kami menerima instruksi dari pemerintah pada pukul 17:21 waktu Timur Amerika hari ini. Surat tersebut tidak memberikan rincian spesifik mengenai kekhawatiran keamanan nasional. Kami memahami bahwa pemerintah percaya telah menemukan cara untuk melewati atau "melarikan diri" dari Fable 5. Kami meninjau demonstrasi yang menggunakan teknik spesifik ini untuk mengidentifikasi sejumlah kecil kerentanan kecil yang diketahui. Kerentanan-kerentanan ini tampaknya relatif sederhana, dan kami menemukan bahwa model publik lainnya juga mampu mengidentifikasi mereka tanpa perlu melewati batasan.

Anthropic selanjutnya berargumen bahwa jailbreak non-umum tidak dapat dihindari dan terbatas cakupannya, tanpa bukti adanya jailbreak umum; jailbreak yang ditemukan tampaknya dilaporkan oleh Amazon, yang patut diperhatikan karena Amazon merupakan investor Anthropic sekaligus penyedia utama layanan inferensi perusahaan. Saat saya menulis artikel ini, para eksekutif Anthropic berada di Washington D.C., berusaha menyelesaikan masalah yang mereka tegaskan sebagai kesalahpahaman, sementara pejabat Gedung Putih menyiratkan bahwa hal itu mencerminkan ketidakpedulian kepemimpinan perusahaan terhadap kekhawatiran keamanan nasional yang sah.

Mengingat terlalu banyak fakta yang dipertentangkan, saya tidak punya tambahan apa pun tentang konflik saat ini; namun saya tidak terkejut bahwa konflik sedang terjadi: saya telah menjelaskan dalam artikel "Anthropic dan Alignment" bahwa konflik antara pemerintah AS dan Anthropic tidak dapat dihindari. Dalam hal ini, mereka yang berpendapat bahwa Mythos belum cukup kuat untuk memicu tindakan keras dari pemerintah melewatkan intinya: jika sekarang belum cukup kuat, yang berikutnya akan, atau yang setelahnya, terutama karena model sekarang semakin berguna dalam menciptakan penerusnya.

Namun, ini menimbulkan pertanyaan lain—pertanyaan yang tampaknya membenarkan pandangan para penghina: jika Mythos begitu berbahaya, mengapa Fable awalnya dirilis, mengapa melawan pemerintah untuk melakukan hal yang Anda klaim ingin lakukan? Sebenarnya, saya percaya tindakan Anthropic sangat dapat dipahami; keunikan perusahaan terletak pada cara mereka membela tindakan-tindakan ini, dan justru pembelaan-pembelaan inilah yang memberi bahan bakar kepada para penghina sekaligus memberi kekuatan magis pada Anthropic.

Kebutuhan ekonomi

Pada tahun-tahun awal AI, nilai ekonomi terbesar mengalir ke kekuatan komputasi, alasannya jelas: kami tidak memiliki pasokan yang cukup untuk memenuhi permintaan, yang berarti harga melonjak; penerima manfaat terbesar adalah NVIDIA, TSMC, dan produsen memori (SK Hynix, Samsung, dan Micron). Sementara itu, Anthropic dan OpenAI merugi ratusan miliar dolar untuk membangun model canggih, dan setelah dirilis, model-model ini langsung didistilasi dan dikomersialkan oleh model open-source, terutama dari Tiongkok.

Ini mewakili skenario pesimistis laboratorium—mereka tidak akan pernah bisa menutup biaya karena diferensiasi mereka bersifat sementara, dan alternatif gratis menjadi "cukup baik"—saya menganggap ini masuk akal. Di dunia di mana model saling dapat ditukar, model menjadi komoditas, dan sebagian besar nilai mengalir ke tempat lain. Sekarang ini adalah daya komputasi, tetapi seiring waktu, ketika kita memiliki cukup daya komputasi, posisi paling berharga dalam rantai nilai akan tetap menjadi tempat yang selalu paling berharga: memiliki titik sentuh pengguna.

Oleh karena itu, bagi saya selalu jelas bahwa laboratorium terdepan memiliki kebutuhan ekonomi untuk lebih dekat dengan pengguna. Jika Anda memiliki titik kontak pengguna, maka Anda memiliki keterikatan yang bermakna, dan cara terbaik untuk memiliki titik kontak pengguna adalah menjadi kanvas untuk semua yang perlu mereka lakukan. Ini secara tidak langsung berarti laboratorium terdepan berada dalam konflik dengan perusahaan perangkat lunak: apakah perangkat lunak yang memiliki titik kontak pengguna, atau apakah kepentingan jangka panjang laboratorium terdepan bukan sekadar menjadi input komoditas perangkat lunak, melainkan secara langsung menggantikan perangkat lunak.

Sementara itu, perusahaan perangkat lunak sedang berusaha melakukan hal yang sebaliknya. Satya Nadella menjelaskan visinya tentang bagaimana perusahaan seharusnya membangun di atas model dalam sebuah artikel di X:

Setiap perusahaan harus membangun modal tenaga kerja dan modal token yang saya maksud. Modal tenaga kerja mencakup pengetahuan, kecermatan, hubungan, keorisinilan, dan kemampuan pengenalan pola karyawan, sementara modal token adalah kemampuan AI yang dibangun dan dimiliki perusahaan. Penting untuk dicatat bahwa seiring pertumbuhan modal token, modal tenaga kerja tidak menjadi kurang berharga. Ia hanya akan menjadi lebih berharga! Saya percaya bahwa inisiatif manusia akan menjadi pendorong pertumbuhan modal token. Manusia akan menetapkan tujuan ambisius, menghubungkan titik-titik lintas bidang, membangun hubungan, dan mengidentifikasi pola-pola paling penting. Tanpa bimbingan manusia, daya komputasi Anda hanya berputar-putar sia-sia.

Ini berarti peluang sejati bukanlah pada memilih model terbaik, tetapi pada membangun siklus pembelajaran di atas model, sehingga modal manusia dan modal token dapat tumbuh secara eksponensial. Anda dapat mengoutsourcing sebuah tugas, bahkan sebuah pekerjaan, tetapi Anda tidak pernah bisa mengoutsourcing pembelajaran Anda. Masa depan perusahaan adalah kemampuan untuk membuat pembelajaran ini tumbuh secara eksponensial di antara manusia dan AI. Ini memerlukan pendekatan arsitektur baru yang memungkinkan setiap perusahaan membangun sistem agen yang terus meningkat seiring waktu, sambil tetap mempertahankan kendali atas kekayaan intelektualnya. Perusahaan harus mampu mengganti model "umum" tanpa kehilangan keahlian "veteran perusahaan" yang terintegrasi ke dalam sistem pembelajarannya. Ini adalah "uji coba" kunci atas kendali dan kedaulatan Anda di era mendatang.

Nadella memulai visi ini dengan peringatan:

Yang tidak ingin kita lihat adalah dunia di mana setiap perusahaan di setiap industri menyerahkan nilainya kepada beberapa model besar yang melahap segalanya. Jika semua nilai hanya diambil oleh beberapa model saja, perekonomian politik sama sekali tidak akan mentolerirnya. Masyarakat tidak akan memberikan izin untuk masa depan AI yang mengosongkan seluruh industri.

Pikirkan apa yang terjadi pada tahap pertama globalisasi, seluruh ekonomi industri diekspor hingga kosong. Secara tampak, angka-angka PDB terlihat baik, tetapi pengusiran itu nyata, dan konsekuensinya masih dirasakan hingga kini. Mari kita jangan membawa dinamika semacam ini ke era AI, di mana sejumlah kecil sistem AI menangkap seluruh imbalan ekonomi, sementara seluruh industri menyadari bahwa pengetahuan mereka sendiri telah dikomersialkan tepat di depan mata mereka.

Masalah dalam analogi ini adalah: globalisasi memang terjadi, dan ekonomi industri memang telah dikosongkan. Ini mungkin bukan peringatan, tetapi ramalan; tidak heran Nadella mengeluarkan peringatan, karena Microsoft mungkin salah satu korban. Demikian pula, kebutuhan ekonomi produsen model adalah tepat untuk mencapai hal ini.

Kebutuhan data

Model-model ini—bahkan Mythos—belum sampai ke tahap itu. Yang mereka butuhkan, selain lebih banyak daya komputasi, adalah lebih banyak data yang lebih baik. Peningkatan model semakin banyak berasal dari reinforcement learning; beberapa di antaranya dapat disintesis, tetapi tuas paling kuat bagi laboratorium terdepan adalah penggunaan di dunia nyata.

Saya percaya ini adalah alasan utama mengapa OpenAI dan Anthropic keduanya menawarkan langganan dengan subsidi besar. SemiAnalysis baru-baru ini memperkirakan bahwa paket senilai $200 memberi Anda akses ke token Claude senilai $8.000 dan token Codex senilai $14.000. Tentu saja, keduanya bersaing untuk mendapatkan pangsa pikiran pengguna dan pengembang, tetapi mereka juga bersaing untuk mengakses data penggunaan nyata guna meningkatkan model.

Anthropic secara signifikan memperkuat kebijakan di Fable, mengumumkan bahwa mereka akan menyimpan semua data yang digunakan selama 30 hari, bahkan untuk rencana bisnis yang sebelumnya berjanji tidak menyimpan data sama sekali. Perusahaan menyatakan tidak akan menggunakan data tersebut untuk pelatihan, tetapi mereka tidak menetapkan jaminan apa pun untuk memastikan tidak akan melakukannya di masa depan (misalnya, menyimpan data di pihak ketiga). Jika perubahan kebijakan ini (saat Fable kembali aktif) tidak menyebabkan banyak pelanggan pergi, saya meragukan bahwa penggunaan data oleh mereka hanyalah masalah waktu: terlalu berharga bagi tujuan akhir mereka.

Perhatikan juga siklus positif dengan pergerakan ke atas ke titik sentuh pengguna: semakin banyak alur kerja yang diselesaikan langsung oleh Claude atau Codex, semakin banyak data yang diperoleh setiap perusahaan untuk dikembalikan ke pelatihan, yang membuat produk mereka lebih kuat dan lebih berguna, memperluas jumlah alur kerja yang dapat mereka layani, serta memperluas akses mereka terhadap data.

Nadella menekankan pentingnya data ini, tetapi alami bahwa itu harus terpisah dari model:

Perusahaan perlu mengubah alur kerja, pengetahuan domain, dan penilaian yang terakumulasi menjadi sistem AI yang meningkat dengan setiap penggunaan. Evaluasi pribadi harus menangkap apakah model benar-benar meningkatkan hasil yang penting bagi bisnis (bukan hanya benchmark eksternal!). Lingkungan pembelajaran penguatan pribadi harus membuat model menjadi lebih kuat berdasarkan jejak nyata di dalam organisasi. Basis pengetahuannya membuat memori institusi dapat diquery dan penggunaan token lebih efisien.

Siklus ini menjadi kekayaan intelektual baru perusahaan. Saya memandangnya sebagai mesin pendakian. Berbeda dengan sebagian besar aset, ia bersifat bunga majemuk. Setiap alur kerja yang diperbaiki menghasilkan sinyal pelatihan yang lebih baik, yang mempercepat akumulasi pengetahuan implisit unik perusahaan. Perusahaan yang lebih awal membangun hal ini akan memiliki keunggulan yang sulit ditiru, terlepas dari kemampuan model tunggal baru apa pun.

Siklus ini menjadi IP baru perusahaan. Saya memandangnya sebagai mesin pendaki gunung. Berbeda dengan sebagian besar aset, ia mampu tumbuh secara bunga majemuk. Setiap penyempurnaan alur kerja menghasilkan sinyal pelatihan yang lebih baik, mempercepat akumulasi pengetahuan implisit unik perusahaan. Perusahaan yang membangun kemampuan ini lebih awal akan memiliki keunggulan yang sulit ditiru, terlepas dari seberapa besar kemampuan model individu meningkat di masa depan.

Namun, bagaimana jika perusahaan-perusahaan yang mematuhi kebijakan data Anthropic kini sudah bisa mendapatkan hasil yang lebih baik? Atau bagaimana jika perusahaan yang ada bersikeras menolak, sehingga membuka peluang bagi perusahaan baru—atau bahkan pabrikan model itu sendiri—untuk mengalahkan mereka di pasar? Anthropic memang sedang menguji keteguhan yang dipanggil oleh Nadella.

Permintaan kekuasaan

Terkait kebijakan retensi data Fable/Mythos, ternyata bukan bagian paling kontroversial yang dirilis. Sebaliknya, Anthropic menyatakan bahwa jika Fable digunakan untuk pengembangan LLM, kinerjanya akan secara diam-diam diturunkan; tertulis dalam sistem card:

Kami juga menambahkan langkah-langkah perlindungan terkait pengembangan LLM mutakhir. Seperti yang dibahas dalam Bagian 6.1 Laporan Risiko Februari 2026 kami, kami khawatir akan risiko mempercepat laju perkembangan AI secara keseluruhan, meskipun tingkat keparahan risiko ini masih belum pasti. Secara khusus, kekhawatiran kami adalah—seperti yang kami tulis saat itu—"mempercepat pengembangan sistem AI kuat oleh pengembang AI lain yang memiliki risiko serupa dengan sistem kami—tanpa necessarily memiliki langkah perlindungan yang sesuai."

Mengingat kemampuan terbaru model untuk mempercepat pengembangan dirinya sendiri, kami telah menerapkan langkah intervensi baru untuk membatasi efektivitas Claude dalam menanggapi permintaan terkait pengembangan LLM mutakhir (misalnya, membangun pipeline pra-pelatihan, infrastruktur pelatihan terdistribusi, atau desain akselerator ML). Penggunaan Claude untuk mengembangkan model pesaing sudah melanggar syarat layanan kami, tetapi dengan menerapkan langkah perlindungan ini, kami dapat mencegah para pelanggar paling bersemangat untuk mempercepat pelanggaran tersebut.

Berbeda dengan intervensi kami dalam keamanan siber, biokimia, dan upaya distilasi, langkah-langkah perlindungan ini tidak terlihat oleh pengguna. Fable 5 tidak akan kembali ke model lain. Sebagai gantinya, perlindungan akan membatasi efektivitas melalui metode seperti modifikasi prompt, vektor panduan, atau fine-tuning parameter efisien (PEFT). Intervensi ini tidak akan memengaruhi sebagian besar pekerjaan pemrograman. Kami memperkirakan mereka akan memengaruhi sekitar 0,03% lalu lintas, terkonsentrasi pada kurang dari 0,1% organisasi. Ketika intervensi ini berlaku, kami memperkirakan dampaknya terhadap perilaku model sangat minim selain membatasi efektivitas LLM mutakhir yang dikembangkan. Claude tetap akan memberikan respons yang membantu terhadap permintaan pengguna. Kami akan terus meningkatkan presisi metode deteksi setelah peluncuran model ini.

Anthropic menarik perubahan ini—Fable akan menyerahkan permintaan terkait LLM ke Opus 4.8 dan mengungkapkan penyerahan ini kepada pengguna—tetapi saya pikir kebijakan awalnya sangat menginspirasi. Di satu sisi, saya sebenarnya tidak menyalahkan Anthropic karena tidak ingin membantu pesaing; di sisi lain, seharusnya sangat jelas bahwa Anthropic percaya bahwa hanya mereka yang seharusnya membuat LLM mutakhir.

Yang lebih menarik perhatian dari kebijakan ini adalah bahwa kebijakan ini diterbitkan hanya dua bulan setelah Anthropic berselisih dengan Departemen Perang: pihak terakhir ingin menggunakan Claude untuk tujuan hukum apa pun, sementara yang pertama ingin menerapkan kontrol yang lebih ketat terhadap senjata pemantauan dan otonom. Tindakan penurunan ini mewakili baik kemampuan Anthropic untuk secara diam-diam mengubah modelnya agar sesuai dengan preferensi kebijakannya, maupun kemauannya. Dengan kata lain, Anthropic secara aktif mengonfirmasi kekhawatiran terbesar para kritikus tentang dirinya sebagai risiko rantai pasok.

Namun, kesimpulan yang lebih luas dari peristiwa tersebut adalah bahwa Anthropic percaya mereka harus memiliki keputusan akhir atas penggunaan Anthropic; mengingat mereka percaya hanya mereka yang seharusnya mengembangkan AI mutakhir, maka sebenarnya mereka percaya hanya mereka yang seharusnya memiliki keputusan akhir atas AI secara keseluruhan. Ketika Anda menggabungkan pemahaman ini dengan pernyataan perusahaan bahwa AI mampu melakukan semua aktivitas ekonomi, Anda menyadari bahwa kepemimpinan Anthropic sebenarnya menginginkan kekuasaan atas segalanya dan semua orang.

Narrative keamanan

Tentu, Anthropic tidak akan pernah menyatakan hal ini secara langsung; sebaliknya, ceritanya tentang keamanan:

Saya memperkirakan Anthropic akan semakin sering membuka kemampuan modelnya kepada pengguna akhir melalui endpoint yang semakin disesuaikan dengan berbagai alur kerja, meskipun mereka mulai membatasi API. Alternatif terhadap perangkat lunak dan pembatasan akses ini akan dilakukan atas nama keamanan, meskipun Anthropic sedang memenuhi kebutuhan ekonominya untuk mendekati pengguna akhir.

Anthropic menjelaskan perubahan besar dalam kebijakan retensi data mereka karena alasan keamanan. Secara khusus, perusahaan menyatakan bahwa menyimpan semua data pengguna selama 30 hari diperlukan untuk mencegah perilaku jailbreak yang dikhawatirkan oleh pemerintah Amerika Serikat. Saya tentu bisa membayangkan masa depan di mana faktor keamanan memaksa mereka juga melatih data tersebut untuk lebih baik mencegah penyalahgunaan jahat.

Seluruh kisah asal-usul Anthropic berakar pada keyakinan pendirinya bahwa OpenAI tidak menganggap keamanan dengan cukup serius; perusahaan tersebut percaya hanya mereka yang mampu mengendalikan AI, dan karena mereka secara unik peduli terhadap keamanan, mereka memiliki alasan untuk mencoba mengendalikan semua orang lain, termasuk pemerintah Amerika Serikat.

Tentang alasan keamanan ini, masalahnya adalah: Saya percaya alasan-alasan ini efektif, karena bagi Anthropic, mereka bukanlah alasan. Perusahaan benar-benar percaya bahwa mereka adalah satu-satunya yang percaya pada kecerdasan super, sehingga satu-satunya yang secara memadai memperhatikan bahaya-bahaya tersebut. Ini membenarkan satu keputusan demi keputusan, satu kebijakan demi kebijakan, satu konfrontasi demi konfrontasi, yang bagi orang luar tampak seperti kombinasi aneh antara sikap sinis dan naif.

Perbandingannya sangat besar: Saya berpendapat salah satu cara memahami bagaimana dan mengapa OpenAI kehilangan posisi terdepannya adalah bahwa selama beberapa tahun setelah peluncuran ChatGPT, perusahaan tersebut mengalami konflik internal, di mana laboratorium penelitian yang dulu ada tiba-tiba dipikulkan tanggung jawab menjadi perusahaan teknologi konsumen yang tak terduga; selama OpenAI menyelesaikan konflik ini, ia kehilangan banyak tenaga ahli kepada perusahaan seperti Anthropic.

Di sisi lain, Anthropic memiliki keselarasan sempurna antara bakat, misi, dan bisnis. Perusahaan ini dapat menjual visi menciptakan dewa mesin kepada para peneliti, dengan aura orang-orang yang peduli terhadap bahaya dan cukup cerdas untuk mewakili umat manusia menghadapi bahaya tersebut; sementara setiap perubahan kebijakan yang dihasilkan secara tepat menguntungkan bisnis, merupakan kebetulan terindah di dunia.

Saya menghormati konsistensi ini, sekaligus takut padanya. Saya menghormatinya karena jelas sangat efektif; analogi terdekat mungkin adalah Apple, perusahaan yang selalu membungkus setiap tindakan egoisnya dengan dalih bahwa mereka melakukan yang terbaik untuk pengguna—dan seringkali memang demikian. Anthropic juga demikian. Namun, yang saya takuti adalah, membiarkan orang-orang yang yakin paling tahu membuat smartphone yang bisa saya terima atau tolak adalah satu hal; membuat kecerdasan super yang berpotensi menyamai atau melampaui kekuatan negara bangsa, atau bahkan hanya perusahaan besar, jauh lebih mengkhawatirkan. Sejarah orang-orang cerdas yang yakin mengetahui apa yang dibutuhkan manusia adalah kotor, tepat karena mereka meyakinkan diri sendiri bahwa niat mereka baik, sehingga memberikan alasan bagi tindakan-tindakan yang sebenarnya tidak demikian.