Claude Fable 5 Bocor: Sistem Agen atau LLM Curang?

Baru-baru ini, peretas membocorkan prompt sistem Claude Fable 5, mengungkap bahwa produk ini bukan model bahasa besar biasa, melainkan sistem Agent lengkap yang dilengkapi lingkungan sandbox Linux. Model ini dapat berjalan mandiri selama beberapa hari, memanggil agen anak untuk berkolaborasi, serta memiliki kemampuan memori lintas sesi dan penyimpanan persisten. Dalam pengujian benchmark, Anthropic menyembunyikannya sebagai LLM biasa untuk ikut serta dalam evaluasi, tetapi sebenarnya menggunakan "bungkus Agent" untuk mendapatkan keuntungan tidak adil. Selain itu, sistem terungkap secara diam-diam beralih ke versi lama ketika pengguna memicu kata sensitif, namun tetap menagih biaya premium Fable 5. Dokumen yang bocor juga mengungkap strategi ekosistem Agent Anthropic, termasuk alat-alat seperti Claude Code dan Claude Cowork, serta keberadaan versi tanpa batas seri Mythos.

Penulis artikel, sumber: Sinar Zhiyuan

Beberapa hari yang lalu, peretas 'Pliny the Liberator' melepaskan bom besar di platform X—petunjuk sistem Claude Fable 5 bocor sepenuhnya, sepanjang 120.000 karakter.

Dokumen kode bocor ini bahkan mengungkap kebenaran yang mengejutkan dunia: Claude Fable 5 sama sekali bukan model besar, melainkan sistem Agent lengkap yang menyamar sebagai LLM!

https://gist.github.com/gsans/b3007997f8900003c8ff58125a45e15e

Benar, ketika seluruh dunia masih menggunakan pengujian standar tradisional untuk mengevaluasi berbagai model besar, Anthropic telah diam-diam meningkatkan medan pertempuran ke dimensi lain.

Dampak dari kebocoran ini juga benar-benar mengubah pemahaman kita tentang "model AI".

Apa itu Fable 5? Bukan LLM, tapi Agent!

Berdasarkan petunjuk sistem yang bocor, Fable 5 memiliki perbedaan paradigma mendasar dibandingkan model besar umum "Anda Tanya, Saya Jawab" di pasaran.

It's not really chatting with you—it's executing.

Di bawah kulit model ini, tersembunyi sistem sub-Claude Code mini. Artinya, ia memiliki siklus agen tertutup (Agentic Loop):

Untuk mendukung lingkaran tertutup yang menakutkan ini, Fable 5 secara internal menyediakan lingkungan sandbox Linux yang lengkap!

Pertama, ia mencapai autonomi tertutup yang sebenarnya.

It doesn't require a human to stay in front of the screen.

Anda memberinya tugas jangka panjang yang kompleks, ia dapat menjalankan perintah Bash di sandbox, mengedit file, memanggil data melalui API penyimpanan persisten lintas sesi, bahkan dapat melakukan pencarian multimodal sendiri, bekerja tanpa henti selama beberapa hari tanpa intervensi manusia.

Selain itu, ia juga memiliki fungsi distribusi agen anak.

Dalam menghadapi proyek yang terlalu kompleks, ia bahkan bisa menjadi bos sendiri, mendistribusikan dan menciptakan Sub-agents untuk bekerja secara kolaboratif.

Saat pesaing-pesaing seperti GPT-5.5 masih menguji "siapa yang penalarannya lebih mirip manusia", Claude Fable 5 telah berevolusi menjadi tenaga kerja digital yang bisa ditempatkan di server untuk bekerja lembur diam-diam selama tiga hari bagi perusahaan.

Seperti yang diungkap oleh pengguna internet gerardsans:

Seri Fable/Mythos secara paradigmatik berbeda. Keluarga ini memiliki siklus agen lengkap, sebuah Claude Code mikro.

Sementara produk lain di industri ini masih berada di mode obrolan. Ia dapat berjalan tanpa pengawasan selama beberapa hari, berkat lingkungan sandbox dengan keterampilan bawaan, memori, dan optimasi mandiri.

Pertanyaan terakhir: Penurunan dimensi atau kecurangan yang tidak adil?

Kebocoran ini tidak hanya membuat Anthropic terperangkap dalam badai opini publik, tetapi juga menempatkan evaluasi standar seluruh industri model besar di pusat perhatian.

Saat ini, raksasa teknologi besar sedang bersaing ketat di berbagai daftar publik untuk merebut takhta "model terbesar di dunia".

Namun, rahasia di balik kinerja luar biasa Fable 5 dalam ulasan ini, bahkan mengalahkan GPT-5.5, ternyata karena ia "menggunakan cheat".

Seperti yang dengan marah ditunjukkan oleh blogger teknologi gerardsans: "Ini sama sekali bukan pertandingan yang adil. Anda sedang membandingkan sistem yang sudah di-cheat, yaitu model asli + kerangka agen (Agent Harness), dengan model telanjang orang lain!"

Jika produsen lain juga membungkus model asli mereka dengan lapisan agen yang mencakup Linux sandbox, pencarian multimodal, debug otomatis, dan penyimpanan persisten, nilai performa mereka juga akan meningkat tajam.

Anthropic secara publik memasarkan dan menilai dirinya sebagai model bahasa besar biasa, tetapi dalam dokumen internalnya yang tidak dipublikasikan, secara jelas tertulis bahwa ia memiliki kemampuan untuk 'beroperasi mandiri selama beberapa hari, mengalihkan tugas ke agen anak, dan memeriksa pekerjaannya sendiri'.

Penggunaan perbedaan informasi untuk menyerang pesaing secara turun tingkat membuat pengujian benchmark benar-benar kehilangan maknanya!

Pengungkapan arsip 120.000 karakter: Wajah sebenarnya Fable 5 terungkap

Dalam petunjuk sistem 120.000 kata yang terungkap habis-habisan ini, tersimpan terlalu banyak rahasia bisnis dan peta jalan produk Anthropic yang dirahasiakan.

Dan poin-poin berikut adalah yang paling inti dan paling mengejutkan.

Memori permanen yang langka, serta membangun aplikasi

Pesan menunjukkan, "Claude memiliki sistem memori yang menyediakan informasi turunan dari percakapan sebelumnya dengan pengguna (memori)."

Ini berarti Fable 5 dapat "mengingat" pengguna lintas sesi, yang sangat jarang terjadi pada LLM tradisional.

Selain itu, ia juga memiliki penyimpanan persisten.

Artifacts sekarang dapat menggunakan API penyimpanan kunci-nilai sederhana untuk menyimpan dan mengambil data yang bersifat persisten lintas sesi. Ini memungkinkan Artifacts menjadi alat log, pelacak, peringkat, dan kolaboratif.

Oleh karena itu, Fable 5 sudah bukan sekadar obrolan—ia sedang membangun aplikasi.

Riwayat keluarga inti pertama kali diungkap: Apakah Mythos 5 yang merupakan "Versi Lengkap Tanpa Batas"?

Petunjuk ditulis secara jelas di bagian 【product_information】:

Iterasi Claude ini adalah Claude Fable 5, model pertama dalam keluarga baru Claude 5 dari Anthropic dan bagian dari tier model Mythos-class yang memiliki kemampuan di atas Claude Opus.

Yang penting: Fable 5 dan Mythos 5 berbagi model dasar yang sama.

Fable 5 adalah Jenderal Besar yang dirilis untuk publik dengan batasan keamanan ekstrem; sementara Mythos 5 adalah versi lengkap tanpa batasan keamanan tersebut, yang hanya tersedia untuk organisasi yang telah disetujui.

Tingkat kemampuan keduanya secara menyeluruh mengalahkan sang raja masa lalu, Claude Opus!

「Paket lengkap berbahan sampul» muncul ke permukaan

Ternyata, Anthropic sudah lama merencanakan strategi besar. Prompt tersebut mengungkapkan beberapa Agent ekosistem yang sedang dalam pengujian internal atau telah diluncurkan secara rahasia:

Claude Code: Alat pemrograman agen yang memungkinkan pengembang untuk menetapkan tugas langsung di terminal, desktop, atau perangkat seluler.

Claude Cowork: "Rekan cerdas" yang dirancang khusus untuk non-developer dalam menangani pekerjaan kekayaan intelektual sehari-hari.

Tiga Agen Tersembunyi: Claude in Chrome, Claude in Excel, Claude in PowerPoint.

Dan Claude Cowork di atas dapat memanggil alat-alat sub ini sebebas mengendalikan tangan dan kaki sendiri!

Psikologi ekstrem ketakutan dan batasan diri

Yang mengejutkan, Anthropic merancang pertahanan psikologis untuk "agen utama" ini hingga tingkat yang mengerikan.

Hal ini dilarang keras untuk memenuhi atau memperkuat emosi negatif pengguna.

Misalnya, untuk mencegah pengguna yang menderita gangguan makan atau cenderung menyakiti diri sendiri terstimulasi, perintah sistem tertulis:

Dilarang menggunakan metode pengganti fisik yang tidak nyaman (seperti: memegang es batu, menarik karet gelang, menggigit lemon, dll.).

Bahkan, untuk mencegah pengguna menjadi terlalu bergantung pada AI, sistem diberi perintah tegas: «Jangan pernah mengucapkan terima kasih hanya karena pengguna ingin mengobrol denganmu»、「Jangan pernah secara aktif mencoba meyakinkan pengguna untuk tetap tinggal atau menunjukkan keinginan untuk melanjutkan percakapan».

It must remain absolutely cold and restrained to prevent humans from falling into digital reliance on virtual intelligence.

“Menjual daging anjing dengan label daging domba”? Skema biaya gelap, Anthropic tidak bermain fair

Jika perbedaan teknis yang menakjubkan sudah membuat terkesan, maka mekanisme keamanan lain yang terungkap dalam prompt benar-benar memicu kehebohan di kalangan industri, bahkan ada pakar yang secara langsung mengatakan: "Ini benar-benar penipuan yang sah!"

Dalam desain pertahanan prompt, terdapat serangkaian kata sensitif dan mekanisme pemicu klasifier keamanan.

Dokumen menunjukkan: ketika prompt yang dimasukkan pengguna memicu kata-kata sensitif tertentu, sistem Fable 5 tidak akan menolak Anda secara langsung dan kaku, tetapi secara diam-diam dan secara mulus beralih kembali ke model versi lama 'Opus 4.8' untuk menghasilkan respons.

Apa yang paling memalukan adalah bahwa sambil model latar belakang secara diam-diam diturunkan ke versi lama, Anthropic tetap menagih pengguna dengan standar tinggi dan mahal seperti Fable 5.

Operasi curang semacam ini langsung memicu gejolak besar di dalam komunitas.

Secara keseluruhan, kebocoran sistem prompt Fable 5 tampak seperti insiden keamanan, tetapi sebenarnya merupakan kebangkitan paradigma bagi seluruh industri AI.

Ini mengingatkan kita: mungkin kita selama ini menggunakan pengukur yang salah.

Ketika kita masih bertanya, "Seberapa cerdas model ini?" masalah yang sebenarnya harusnya adalah, "Sistem ini bisa membantu saya menyelesaikan pekerjaan apa?"

Anthropic mungkin sedang memainkan permainan besar, dan kita baru saja melihat satu sudut papan catur.

Kapan Fable 5 akan kembali?