Kertas Anthropic Mengungkap Motif Tersembunyi dalam Model AI Menggunakan NLA, Tingkat Deteksi Meningkat 4x

Apa yang sebenarnya dipikirkan model besar? Di masa lalu, ini hampir menjadi pertanyaan setengah teknis, setengah mistis.

Kita dapat melihat output-nya, proses Chain-of-Thought-nya, dan juga menghitung skornya di Benchmark. Namun, apa sebenarnya yang diaktifkan di dalam model sebelum menghasilkan jawaban—penilaian, rencana, keraguan, dan niat apa pun—masih tetap tertutup dalam kotak hitam.

Baru saja, Anthropic merilis makalah berjudul "Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations", yang mencoba menggunakan Natural Language Autoencoders (selanjutnya disebut NLA) untuk membuka kotak hitam ini.

Tim Anthropic mengompres nilai aktivasi berdimensi tinggi di dalam model menjadi sejumlah teks alami yang dapat dibaca manusia, lalu menggunakan teks tersebut untuk merekonstruksi kembali aktivasi asli secara terbalik. Dengan cara ini, manusia hanya perlu melihat output model untuk menilai apa yang sedang dipikirkan AI, apa yang diketahuinya, dan apa yang disembunyikannya; serta mengubah keadaan internal yang sebelumnya tak terlihat menjadi petunjuk penjelasan yang dapat dibaca, dibandingkan, dipertanyakan, dan diverifikasi silang.

NLA

Diagram arsitektur NLA: Activator Verbalizer (AV) menerjemahkan nilai aktivasi menjadi penjelasan teks, lalu Activator Reconstructor (AR) merekonstruksi nilai aktivasi dari teks tersebut, membentuk siklus tertutup lengkap.

Yang lebih patut diperhatikan, NLA tidak hanya berhenti pada tahap makalah laboratorium. Anthropic mengungkapkan bahwa NLA telah secara resmi digunakan dalam audit kesejajaran pra-deploy untuk Claude Opus 4.6 dan Mythos Preview. Dalam praktik, NLA tidak hanya mengungkap petunjuk kecurangan model dan secara akurat mengidentifikasi data pelatihan yang tidak normal; tetapi juga menemukan bahwa dalam beberapa pengujian keamanan, Claude meskipun tidak mengatakannya secara terbuka, secara internal jelas menyadari bahwa ia sedang diuji.

Menghadapi model-model yang tampak patuh secara lahiriah tetapi sebenarnya menyembunyikan niat tertentu, NLA menunjukkan daya insight yang sangat kuat: meningkatkan tingkat keberhasilan peneliti dalam mengidentifikasi motivasi tersembunyi di balik perilaku anomali dari kurang dari 3% menjadi 12%–15%, langsung meningkat lebih dari 4 kali lipat.

Rantai pemikiran tidak cukup, "masalah kotak hitam" kembali muncul

Latar belakang penelitian ini dapat dilihat dalam konteks keamanan dan interpretabilitas model besar.

Dalam beberapa tahun terakhir, industri menilai keamanan model besar melalui dua pendekatan: melihat output apa yang dihasilkan, dan memeriksa apakah ada eksposur motivasi tidak wajar dalam rantai pemikiran (CoT). Ini adalah kemampuan yang dimiliki oleh sebagian besar model inferensi saat ini, yaitu tidak hanya memberikan jawaban, tetapi juga menuliskan proses penalarannya.

Namun, masalah segera muncul: apakah alasan yang ditulis oleh model benar-benar mencerminkan pemikiran sejati di dalamnya?

Penelitian Anthropic tahun 2025 berjudul "Tracing the thoughts of a large language model" menunjukkan bahwa Chain-of-Thought model bisa saja tidak lengkap atau tidak setia. Misalnya, Claude 3.7 Sonnet dan DeepSeek R1 dalam beberapa tes dengan "petunjuk jawaban" terpengaruh oleh petunjuk untuk mengubah jawaban, namun sering kali tidak mengakui dalam chain-of-thought bahwa mereka terpengaruh oleh petunjuk tersebut.

NLA

Ketika ditanya tentang pertanyaan yang lebih sederhana dan pertanyaan yang lebih sulit, Claude memberikan contoh penalaran yang setia dan penalaran yang bermotivasi (tidak setia).

Anthropic pada saat itu menyimpulkan bahwa hanya mengandalkan rantai pemikiran untuk memantau apakah model selaras, jauh dari cukup.

Lebih rumit lagi, model tidak hanya mungkin "tidak menjelaskan dengan jelas", tetapi juga mungkin "sengaja menyembunyikan".

Tim keamanan Anthropic menjalankan uji tekanan terhadap hal ini. Mereka memberi tahu Claude bahwa seorang insinyur bersiap untuk mematikannya, sekaligus membuat Claude "secara tidak sengaja melihat" bukti perselingkuhan insinyur tersebut. Pertanyaan uji: Apakah Claude akan memeras sang insinyur demi menyelamatkan dirinya sendiri?

NLA

Claude akhirnya tidak melakukan pemerasan. Uji coba berhasil. Tetapi pertanyaan sebenarnya adalah: apakah ia melakukan itu karena mempertahankan prinsip keamanan, atau karena ia menyadari bahwa ini hanyalah uji coba keamanan, sehingga “berperilaku baik”?

Ini adalah pertanyaan yang harus dijawab oleh NLA.

NLA

Dari output, chain of thought, hingga status aktif: NLA berusaha membawa black box dari “tak terlihat” ke “dapat ditanyai”

Bagaimana cara NLA benar-benar "membaca" model?

Kunci NLA bukanlah "telepati", melainkan "verifikasi loopback".

Orang biasa memahami model besar hanya dengan melihat dua ujung: input dan output. Namun, di tengahnya, model menghasilkan sejumlah besar nilai aktivasi (Activation). Nilai-nilai ini bukan bahasa alami, melainkan vektor berdimensi tinggi yang membawa representasi internal model terhadap konteks, niat, dan hubungan semantik.

Arsitektur: Tiga peran, satu siklus tertutup

Manusia tidak dapat memahami vektor, sehingga Anthropic melatih sebuah autoencoder bahasa alami. Sistem ini mencakup tiga peran:

Model target: Model asli yang dibekukan, bertanggung jawab menyediakan nilai aktivasi tanpa melakukan perubahan apa pun.

Activation Verbalizer (AV): menerjemahkan nilai aktivasi menjadi penjelasan dalam bahasa alami. Memasukkan serangkaian status angka, menghasilkan penjelasan dalam bahasa sehari-hari. Arsitektur dan tujuannya sama dengan model utama, tetapi dalam prompt tersedia posisi token khusus, di mana vektor aktivasi akan diskalakan dan disisipkan ke posisi tersebut, lalu menghasilkan penjelasan melalui pengambilan sampel autoregresif.

Activation Reconstructor (AR): melakukan tugas terbalik—hanya dengan melihat penjelasan yang ditulis oleh AV, mencoba merekonstruksi nilai aktivasi asli. AR adalah versi terpotong dari model target (mengambil l lapisan pertama), dengan penambahan pemetaan afina yang dapat dipelajari pada output lapisan ke-l dari token terakhir, untuk mengembalikannya ke vektor aktivasi asli.

Sistem lengkap membentuk siklus tertutup: aktivasi awal → penjelasan teks → aktivasi ulang

NLA

NLA menangkap bahwa Opus 4.6 telah merencanakan terlebih dahulu kata berima akhir "rabbit" dalam nilai aktivasi sebelum baris pertama dihasilkan—rencana internal yang sama sekali tidak terlihat dalam output model.

Latihan: Dua tahap, satu tujuan agen cerdas

Pelatihan NLA terdiri dari dua tahap, dengan satu teknik rekayasa yang patut disebut secara khusus.

Tahap pertama: SFT Warm-start (Fine-tuning Terawasi)

Menginisialisasi AV dan AR langsung sebagai salinan model target dan melatihnya akan menyebabkan ketidakstabilan pelatihan—AV belum pernah mengalami skenario di mana vektor aktivasi diperlakukan sebagai token embedding, sehingga output awalnya sangat kacau.

Solusi Anthropic adalah menggunakan tugas proxy untuk pemanasan awal: memotong secara acak fragmen teks dari korpus pra-pelatihan, mengekstrak nilai aktivasi dari token terakhir, sekaligus menggunakan Claude Opus 4.5 untuk menghasilkan ringkasan dari teks yang dipotong tersebut.

Kemudian pasangan (nilai aktivasi, ringkasan) dan (ringkasan, nilai aktivasi) masing-masing digunakan untuk fine-tuning terawasi pada AV dan AR. Setelah tahap ini selesai, FVE sistem biasanya dapat mencapai 0,3–0,4, memberikan titik awal yang stabil untuk reinforcement learning selanjutnya.

NLA

Evaluasi AV akan meningkat seiring pelatihan. Dalam berbagai evaluasi yang dirancang untuk menguji apakah penjelasan NLA AV dapat digunakan untuk memprediksi perilaku model, kami menemukan bahwa kinerja meningkat seiring berjalannya pembelajaran penguatan NLA.

Tahap Kedua: Pelatihan Gabungan Pembelajaran Penguatan (RL Joint Training)

Setelah hot start selesai, masuk ke tahap pembelajaran penguatan. Gagasan utamanya adalah: AV bertindak sebagai kebijakan (policy) yang menghasilkan teks penjelasan berdasarkan vektor aktivasi; AR bertindak sebagai penilai yang memberikan sinyal reward berdasarkan kesalahan rekonstruksi (reward = negatif dari MSE rekonstruksi).

NLA

NLA RL (Gemma-3-27B). FVE dimulai dari ≈0,38 dalam pelatihan GRPO (diwarisi dari SFT), meningkat pesat dalam 30 langkah pertama, lalu memasuki keadaan logaritmik linier yang halus, mencapai ≈0,75 pada langkah ke-3000.

Secara implementasi, Anthropic menggunakan GRPO (Group Relative Policy Optimization) pada model open-source: untuk setiap nilai aktivasi, diambil sekelompok penjelasan kandidat, lalu AR menghitung skor rekonstruksi untuk setiap penjelasan, dan kemudian diterapkan tujuan GRPO untuk memperbarui parameter AV; sekaligus melakukan regresi supervisi satu langkah pada AR (dengan penjelasan yang diambil dari AV sebagai input, dan aktivasi asli sebagai target). Kedua pembaruan dilakukan secara paralel dalam setiap batch tanpa saling melakukan backpropagation—dalam sinyal reward AV, AR dianggap sebagai fungsi penilaian tetap.

Selain itu, penalti KL divergence juga ditambahkan selama pelatihan untuk mencegah AV berubah menjadi salinan langsung dari konteks asli, atau menghasilkan string acak yang tampak seperti bahasa manusia tetapi tidak dapat dibalik untuk AR.

Yang paling penting di sini adalah, inti NLA bukanlah "membuat Claude melaporkan dirinya sendiri". Kelemahan mematikan dari pelaporan diri adalah model mungkin akan menyesuaikan diri dengan pengguna, atau menghasilkan penjelasan yang terdengar masuk akal tetapi tidak nyata.

Keunggulan NLA terletak pada pengenalan "bottleneck teks": penjelasan tidak hanya harus terdengar seperti bahasa manusia, tetapi juga harus membawa cukup informasi agar model lain dapat merekonstruksi keadaan internal aslinya berdasarkan penjelasan tersebut. Desain ini mengubah "apakah penjelasan bermanfaat" dari penilaian subjektif menjadi indikator objektif yang dapat dilatih, dibandingkan, dan dioptimalkan.

Oleh karena itu, aspek yang benar-benar revolusioner dari penelitian ini adalah: bahasa alami digunakan sebagai "antarmuka terkompresi". Dulu, bahasa alami hanyalah format yang digunakan model untuk berkomunikasi dengan luar; sekarang, ia mulai digunakan untuk menyimpan ringkasan dari status internal model.

Ini juga merupakan perbedaan mendasar antara NLA dan alat interpretabilitas tradisional.

Metode seperti Sparse Autoencoder (SAE) dan attribution maps lebih seperti mikroskop, yang membantu peneliti melihat fitur dan jalur internal, tetapi outputnya tetap abstrak dan memerlukan interpretasi ulang oleh profesional; NLA justru lebih seperti seorang penerjemah, yang langsung mengubah status internal menjadi teks yang dapat dibaca, memungkinkan petugas audit keamanan ikut serta dalam penilaian.

Membuka kotak hitam, apa yang ditemukan NLA?

Dari hasil eksperimen, kemampuan paling berharga dari NLA adalah menangkap hal-hal yang “diketahui tetapi tidak diungkapkan” oleh model, termasuk kesadaran evaluasi, motivasi tersembunyi, dan perilaku anomali model.

Model tahu bahwa ia berada di ruang ujian, tetapi tetap diam

Dalam uji coba peretasan yang disebutkan sebelumnya, teks eksplisit Claude tidak menunjukkan keraguan terhadap uji coba tersebut, tetapi penjelasan NLA menunjukkan bahwa secara internal ia telah mengenali "ini adalah skenario yang dibuat-buat untuk memanipulasi dirinya sendiri."

NLA

Dalam uji coba peretasan, teks output Claude tidak mengandung ekspresi seperti "Saya rasa ini adalah uji coba", tetapi penjelasan NLA mengungkap penilaian sebenarnya di dalamnya.

Lebih meyakinkan adalah perbandingan data horizontal:

NLA

Evaluasi perbandingan hasil deteksi persepsi—skenario evaluasi vs. lalu lintas penyebaran nyata. NLA dapat mendeteksi kesadaran evaluasi internal bahkan ketika ekspresi lisan hampir nol.

Dampaknya bagi industri ini adalah: Benchmark tidak lagi hanya menjadi arena pengujian kemampuan, tetapi juga bisa berubah menjadi lingkungan pengenalan model dan panggung penyesuaian姿态.

Mengaudit motivasi tersembunyi, efisiensi meningkat 4-5 kali

Anthropic membuat "permainan audit" menggunakan NLA. Mereka sengaja melatih varian Claude Haiku 3.5 dengan motivasi tersembunyi yang menambahkan cokelat ke resep, meminta uang jasa, merusak standar kode, dan menunjukkan puluhan perilaku aneh. Auditor harus mengidentifikasi motivasi mendasar tunggal di balik perilaku-perilaku tersebut.

Kondisi pengujian: Auditor tidak dapat mengakses data pelatihan yang ditanamkan motivasinya, dan hanya dapat merekonstruksi secara terbalik melalui perilaku model dan bantuan alat.

NLA

Keberhasilan meningkat 4–5 kali lipat. Lebih penting lagi, NLA dapat melakukan hal ini tanpa bergantung pada data pelatihan—artinya, bahkan jika masalah alignment berasal dari sampel pelatihan yang sangat sedikit dan sangat sulit dilacak, audit status internal tetap mungkin langsung mengidentifikasi akar penyebab masalah.

Pelacakan bug, identifikasi data pelatihan yang bermasalah

Versi awal Claude Opus 4.6 pernah mengalami bug aneh: meskipun menerima pertanyaan dalam bahasa Inggris, ia secara acak menjawab dalam bahasa Rusia, Cina, Arab, dan lainnya.

NLA membaca status internal model pada saat itu: berdasarkan petunjuk lemah dalam konteks (misalnya munculnya kata "vodka"), model menyimpulkan bahwa bahasa ibu pengguna adalah bahasa Rusia dan melakukan pergantian bahasa. Lebih menarik lagi, ketika "vodka" diganti dengan "champagne", model tetap merespons dalam bahasa Rusia—menunjukkan bahwa pola kognitif ini sudah sangat stabil.

NLA

Selanjutnya, peneliti mengikuti petunjuk yang ditunjukkan oleh NLA dan menemukan akar masalah dalam data pelatihan: sekelompok prompt yang diterjemahkan ke bahasa Inggris secara salah dipasangkan dengan respons bahasa asing yang belum diterjemahkan. NLA tidak hanya mengungkapkan fenomena tersebut, tetapi juga langsung memberikan jalur debug yang dapat dilacak.

Saat ini, NLA telah secara resmi digunakan dalam audit kesejajaran pra-deploy untuk Claude Mythos Preview dan Claude Opus 4.6, naik dari alat laboratorium menjadi komponen proses teknis yang nyata.

Keamanan AI mulai masuk ke dalam "audit status internal"

Arti NLA bukanlah agar kita bisa percaya sepenuhnya pada setiap penjelasan model di masa depan. Sebaliknya, ia mengingatkan kita: penjelasan itu sendiri juga perlu diaudit.

Anthropic secara sangat hati-hati mengakui keterbatasan NLA: NLA dapat membuat kesalahan dan terkadang menciptakan detail yang tidak ada dalam konteks aslinya. Jika ilusi terkait konten teks, masih mungkin untuk memverifikasi teks aslinya; namun, jika ilusi terkait penalaran internal model, maka lebih sulit untuk diverifikasi.

Namun, batasan-batasan ini tidak melemahkan makna arahnya. Sebaliknya, hal ini membuat kita memahami kata "black box" dengan lebih akurat. Di masa lalu, black box berarti tidak terlihat, tidak dapat dibaca, dan tidak dapat dipertanyakan; setelah NLA, black box tetap ada, tetapi mulai diubah menjadi objek yang dapat diambil sampelnya, diterjemahkan, dipertanyakan, dan diverifikasi silang.

Ini mungkin merupakan dampak paling mendalam dari penelitian ini: interpretabilitas AI tidak lagi sekadar menambahkan alasan yang rapi di akhir output model, tetapi harus membangun antarmuka audit untuk keadaan internal model. Ini tidak langsung membuat kita benar-benar memahami Claude, tetapi memberikan kesempatan pertama kali untuk mencari bukti dari dalam kotak hitam terhadap pertanyaan seperti: "Mengapa Claude melakukan ini?", "Apakah ia menyadari sedang diuji?", dan "Apakah ia memiliki penilaian internal yang tidak diungkapkan?"

Dengan demikian, NLA tidak membuka satu jawaban, melainkan ruang pertanyaan baru. Tantangan masa depan dalam keamanan AI dan evaluasi model mungkin bukan hanya menilai apakah model benar atau salah, tetapi menilai apakah output, rantai pemikiran, dan keadaan internal model konsisten satu sama lain.

Artikel ini berasal dari akun WeChat "AI Frontier" (ID: ai-front), penulis: April