Claude Fable 5 Bocor: Sistem Agen atau LLM Curang?

Hacker baru-baru ini bocorkan petunjuk sistem Claude Fable 5, mengungkapkan bahawa produk ini bukan model bahasa besar biasa, tetapi sistem Agent penuh yang dilengkapi dengan persekitaran sandbox Linux. Model ini boleh beroperasi secara autonomi selama beberapa hari, memanggil agen anak untuk bekerjasama, serta memiliki kemampuan ingatan lintas sesi dan penyimpanan berterusan. Dalam ujian piawai, Anthropic membungkusnya sebagai LLM biasa untuk tujuan penilaian, tetapi sebenarnya menggunakan "kulit Agent" untuk mendapat keuntungan tidak adil. Selain itu, sistem ini juga didedahkan telah secara senyap beralih ke versi lama apabila pengguna memicu perkataan sensitif, tetapi tetap menagih bayaran harga premium Fable 5. Dokumen yang bocor juga mengungkapkan pelan ekosistem Agent Anthropic, termasuk alat-alat seperti Claude Code dan Claude Cowork, serta kehadiran versi tanpa had Myths.

Penulis artikel, sumber: Sinar Zhiyuan

Beberapa hari yang lalu, perompak 'Pliny the Liberator' melepaskan bom besar di platform X—petunjuk sistem Claude Fable 5 bocor sepenuhnya, sepanjang 120,000 aksara.

Dokumen kod bocor ini lebih lanjut mengungkapkan satu kebenaran yang mengejutkan kalangan dalam: Claude Fable 5 sebenarnya bukan model besar, tetapi sistem Agent penuh yang menyamar sebagai LLM!

https://gist.github.com/gsans/b3007997f8900003c8ff58125a45e15e

Betul, ketika seluruh dunia masih menggunakan ujian piawai tradisional untuk menilai model besar pelbagai pihak, Anthropic telah secara senyap meningkatkan medan pertempuran ke dimensi yang lain.

Kesan kebocoran ini juga telah membalikkan sepenuhnya pemahaman kita terhadap "model AI".

Fable 5 sebenarnya apa? Bukan LLM, ia adalah Agent!

Berdasarkan petunjuk sistem yang bocor, Fable 5 berbeza secara asas dari model besar biasa "anda tanya, saya jawab" di pasaran.

Ia sebenarnya bukan berbual bersama anda, ia sedang melakukan 'Execution'.

Di bawah kulit model ini, tersembunyi sistem sub 'Claude Code' mikro. Dengan kata lain, ia memiliki kitaran agen tertutup (Agentic Loop):

Untuk menyokong gelung tertutup yang menakutkan ini, Fable 5 secara asasnya dilengkapi dengan persekitaran sandbox Linux yang lengkap!

Pertama, ia mencapai autonomi tertutup yang sebenarnya.

Ia tidak memerlukan manusia untuk berada di hadapan skrin.

Anda memberinya tugas jangka panjang yang kompleks, ia boleh menjalankan arahan Bash sendiri di dalam sandbox, mengedit fail, memanggil data melalui API penyimpanan kekal antar-sesi, bahkan boleh melakukan carian multimodal sendiri, beroperasi tanpa henti selama beberapa hari berturut-turut tanpa sebarang campur tangan manusia.

Selain itu, ia juga mempunyai fungsi pengagihan agen anak.

Apabila menghadapi projek yang terlalu kompleks, ia bahkan boleh menjadi bos sendiri, mengagihkan dan menghasilkan Sub-agents untuk bekerja secara kolaboratif.

Sementara pesaing-pesaing seperti GPT-5.5 masih dalam ujian “siapa yang penalarannya lebih mirip manusia”, Claude Fable 5 telah berkembang menjadi pekerja digital yang boleh dimasukkan ke dalam pelayan untuk bekerja lembur secara diam-diam selama tiga hari.

Seperti yang diungkapkan oleh pengguna internet gerardsans:

Siri Fable/Mythos berbeza secara paradigma. Keluarga ini memiliki kitaran agen penuh, sebuah Claude Code mikro.

Sementara produk lain dalam industri masih berada dalam modus perbualan, ia boleh beroperasi tanpa pengawasan selama beberapa hari, berkat persekitaran sandbox dengan kemahiran, memori, dan pengoptimuman sendiri yang dibina dalam.

Pertanyaan terakhir: Serangan penurunan dimensi atau kecurangan yang tidak adil?

Kebocoran ini tidak hanya menjadikan Anthropic terperangkap dalam badai舆论, tetapi juga membawa penilaian patokan seluruh industri model besar ke pusat perhatian.

Sekarang, raksasa teknologi besar sedang bersaing sengit di pelbagai senarai awam untuk merebut takhta "model terbesar di dunia".

Namun, rahsia di sebalik prestasi cemerlang Fable 5 dalam ulasan ini, bahkan mengalahkan GPT-5.5, ialah kerana ia "menggunakan cheat".

Seperti yang ditegaskan dengan marah oleh blogger teknologi gerardsans: "Ini sama sekali bukan pertandingan yang adil. Anda sedang membandingkan sistem yang menggunakan model asli + bingkai agen (Agent Harness) yang dimodifikasi, dengan model telanjang orang lain!"

Jika pengilang lain juga membungkus model asli mereka dengan cangkang Agent yang mencakup Linux sandbox, carian multimodal, Debug automatik, dan penyimpanan berterusan, skor prestasi mereka juga akan meningkat tajam.

Anthropic secara terbuka mempromosikan dan menilai ia sebagai model bahasa besar biasa, tetapi dalam dokumen dalaman yang tidak dipublikasikan, ia secara jelas menyatakan bahawa ia mempunyai kemampuan untuk "beroperasi secara autonomi merentasi beberapa hari, menghantar tugas kepada agen anak, dan memeriksa pekerjaan sendiri".

Pendekatan memanfaatkan perbezaan maklumat untuk menyerang pesaing secara mendalam ini membuat ujian piawai benar-benar kehilangan maknanya!

Pendedahan dokumen rahsia 120,000 patah perkataan: Wajah sebenar Fable 5 terungkap

Dalam petunjuk sistem 120,000 perkataan yang telah diungkap sepenuhnya ini, tersembunyi terlalu banyak rahsia perniagaan dan peta jalan produk Anthropic yang dirahsiakan.

Dan poin-poin berikut adalah yang paling inti dan paling mengejutkan.

Memori kekal yang jarang berlaku, serta membina aplikasi

Petunjuk menunjukkan, "Claude mempunyai sistem ingatan yang boleh menyediakan maklumat terbitan daripada perbualan sebelumnya dengan pengguna (ingatan)."

Ini bermakna Fable 5 mampu «mengingat» pengguna merentas sesi, yang sangat jarang berlaku dalam LLM tradisional.

Selain itu, ia juga memiliki penyimpanan berterusan.

Artifacts kini boleh menggunakan API penyimpanan kunci-nilai yang mudah untuk menyimpan dan mengambil data yang kekal antar sesi. Ini membolehkan Artifacts menjadi alat log, pelacak, papan pemimpin, dan alat kerjasama.

Oleh itu, Fable 5 bukan lagi sekadar perbualan—ia sedang membina aplikasi.

Keturunan inti dalaman diumumkan buat pertama kalinya: Mythos 5kah yang merupakan "versi penuh tanpa batasan"?

Petunjuk ditulis dengan jelas di bahagian 【product_information】:

Iterasi Claude ini ialah Claude Fable 5, model pertama dalam keluarga baru Claude 5 milik Anthropic dan sebahagian daripada peringkat model Mythos-class yang berada di atas Claude Opus dari segi kemampuan.

Yang penting: Fable 5 dan Mythos 5 berkongsi model dasar yang sama.

Fable 5 ialah Jeneral Besar yang diperuntukkan untuk awam dengan sekatan keselamatan ekstrem; manakala Mythos 5 ialah versi penuh tanpa sekatan keselamatan tersebut, yang hanya disediakan kepada organisasi yang diluluskan.

Tahap kemampuan kedua-duanya menghancurkan sepenuhnya raja lama sebelum ini, Claude Opus!

「Paket Lengkap Berpura-pura」 Muncul ke Permukaan

Ternyata, Anthropic sudah lama merancang strategi besar. Petunjuk dalam teks mengungkapkan beberapa ekosistem Agent yang sedang dalam ujian dalaman atau telah dilancarkan secara rahsia:

Claude Code: Alat pemrograman agen yang membolehkan pembangun menetapkan tugas secara langsung di terminal, desktop, atau peranti mudah alih.

Claude Cowork: "Rakan kerja pintar" yang khusus ditujukan kepada bukan pembangun untuk menangani pekerjaan hak kekayaan intelektual harian.

Tiga Agen Tersembunyi: Claude in Chrome, Claude in Excel, Claude in PowerPoint.

Dan Claude Cowork di atas boleh menggunakan alat-alat anak ini seolah-olah ia adalah tangan dan kaki sendiri!

Psikologi ekstrem ketakutan dan batasan diri

Yang mengejutkan, Anthropic telah merancang pertahanan psikologi untuk "agen utama" ini hingga tahap yang mengerikan.

Ia dilarang keras untuk memenuhi atau memperkuat sebarang emosi negatif pengguna.

Sebagai contoh, untuk mencegah pengguna yang mengalami gangguan makan atau cenderung menyakiti diri sendiri terstimulasi, perintah sistem menyatakan:

Dilarang menggunakan sebarang kaedah pengganti ketidakselesaan fizikal (seperti: memegang ketul ais, mencubit getah gelang, menggigit limau, dll).

Bahkan, untuk mencegah pengguna menjadi terlalu bergantung pada AI, sistem diberi arahan tegas: "Jangan sekali-kali mengucapkan terima kasih hanya kerana pengguna berbual dengan anda" dan "Jangan sekali-kali berusaha menahan pengguna atau menunjukkan keinginan untuk meneruskan perbualan".

Ia mesti kekal sangat sejuk dan terkawal, untuk mencegah manusia jatuh ke dalam ketergantungan digital terhadap kecerdasan maya.

“Menjual daging anjing dengan label daging biri-biri”? Skandal caj, Anthropic tidak bermain adil

Jika perbezaan teknologi yang menakjubkan sudah memukau, maka mekanisme keselamatan lain yang terdedah dalam petunjuk itu telah membuat komuniti bergoncang, dengan beberapa pakar industri secara terus terang berkata: "Ini sebenarnya penipuan yang sah!"

Dalam reka bentuk pertahanan kata pemicu, terdapat satu set perkataan sensitif dan mekanisme pemicu klasifier keselamatan.

Dokumen menunjukkan: apabila petunjuk yang dimasukkan pengguna memicu beberapa kata sensitif tertentu, sistem Fable 5 tidak akan menolak anda secara langsung dan kasar, tetapi secara senyap dan tanpa gangguan di latar belakang akan beralih semula ke model versi lama 「Opus 4.8」 untuk menghasilkan respons.

Apakah yang paling tak malu adalah bahawa sambil model belakang secara diam-diam diturunkan ke versi lama, Anthropic masih menagih pengguna mengikut piawaian tinggi dan mahal Fable 5.

Operasi licik yang menampilkan daging domba tetapi menjual daging anjing ini langsung menimbulkan kegaduhan besar di kalangan komunitas.

Secara keseluruhan, kebocoran prompt sistem Fable 5 kelihatan seperti satu insiden keselamatan, tetapi sebenarnya merupakan pembangkitan paradigma terhadap seluruh industri AI.

Ia mengingatkan kita: mungkin kita telah menggunakan ukuran yang salah sepanjang masa.

Semasa kita masih bertanya, “Sejauh mana kecerdasan model ini?”, masalah yang sebenarnya ialah, “Sistem ini boleh membantu saya menyelesaikan tugas apa?”

Anthropic mungkin sedang memainkan permainan besar, dan kami baru sahaja melihat sebahagian daripada papan catur.

Kapan Fable 5 akan kembali?