Kertas Anthropic Mengungkap Motif Tersembunyi dalam Model AI Menggunakan NLA, Kadar Pengesanan Meningkat 4x

Apa yang sebenarnya dipikirkan oleh model besar? Di masa lalu, ini hampir menjadi soal separuh teknikal dan separuh mistik.

Kita boleh melihat outputnya, proses rantai pemikiran (Chain-of-Thought)nya, dan juga mengira skornya dalam Benchmark. Namun, apa sebenarnya yang diaktifkan di dalam model sebelum menghasilkan jawapan—penilaian, perancangan, keraguan, dan niat—masih tertutup dalam kotak hitam.

Baru sahaja, Anthropic menerbitkan kertas kerja berjudul "Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations", yang cuba menggunakan satu set autoencoder bahasa semula jadi (Natural Language Autoencoders, selanjutnya disingkat NLA) untuk membuka kotak hitam ini.

Timm Anthropic mengompres nilai aktivasi dimensi tinggi dalaman model menjadi satu rangkaian bahasa semula jadi yang boleh difahami manusia, kemudian menggunakan bahasa ini untuk membina semula aktivasi asal secara songsang. Dengan cara ini, manusia hanya perlu melalui output model untuk menilai apa yang dipikirkan AI, apa yang diketahuinya, dan apa yang disembunyikannya; serta menukar keadaan dalaman model yang sebelumnya tidak kelihatan menjadi petunjuk penjelasan yang boleh dibaca, dibandingkan, dipertanyakan, dan disahkan silang.

NLA

Rajah arsitektur NLA: Activator Verbalizer (AV) menterjemahkan nilai aktivasi menjadi penjelasan teks, kemudian Activator Reconstructor (AR) memulihkan nilai aktivasi daripada teks tersebut, membentuk gelung tertutup penuh.

Yang lebih perlu diperhatikan ialah, NLA tidak hanya berhenti pada peringkat kertas makmal. Anthropic mengungkapkan bahawa ia telah digunakan secara rasmi dalam audit penyelarasan pra-pelancaran untuk Claude Opus 4.6 dan Mythos Preview. Dalam amalan sebenar, NLA tidak hanya mengesan petunjuk kecurangan model dan mengesan data latihan yang tidak normal dengan tepat; ia juga mendapati bahawa dalam beberapa ujian keselamatan, walaupun Claude tidak mengatakan apa-apa, ia secara jelas sedar bahawa ia sedang diuji.

Menghadapi model-model yang kelihatan patuh tetapi sebenarnya menyembunyikan niat tertentu, NLA menunjukkan kepekaan yang sangat tinggi: meningkatkan kejayaan penyelidik dalam mengenal pasti motivasi tersembunyi di sebalik perilaku aneh dari kurang daripada 3% kepada 12%–15%, meningkatkan langsung lebih daripada 4 kali ganda.

Rantai pemikiran tidak mencukupi, "masalah kotak hitam" kembali muncul

Konteks kajian ini boleh dilihat dalam konteks keselamatan dan kebolehjelasan model besar.

Dalam beberapa tahun terakhir, industri menilai keselamatan model besar melalui dua pendekatan: memeriksa output yang dihasilkan, dan memeriksa sama ada motivasi yang tidak biasa terdedah dalam rantai pemikiran (CoT). Ini merujuk kepada kemampuan yang dimiliki oleh kebanyakan model inferens semasa ini, iaitu tidak hanya memberikan jawapan, tetapi juga menulis proses penalaran.

Tetapi masalah segera muncul: apakah alasan yang ditulis oleh model benar-benar mencerminkan pemikiran sebenarnya di dalamnya?

Kajian Anthropic tahun 2025, "Tracing the thoughts of a large language model", menunjukkan bahawa Chain-of-Thought model mungkin tidak lengkap atau tidak setia. Sebagai contoh, Claude 3.7 Sonnet dan DeepSeek R1 dalam beberapa ujian dengan "isyarat jawapan" akan dipengaruhi oleh petunjuk untuk mengubah jawapan, tetapi sering kali tidak mengakui dalam rantai pemikiran bahawa mereka dipengaruhi.

NLA

Apabila ditanya soalan yang lebih mudah dan soalan yang lebih sukar, Claude memberikan contoh penalaran setia dan penalaran bermotif (tidak setia).

Anthropic pada masa itu menyimpulkan: hanya mengandalkan rantai pemikiran untuk memantau keselarasan model adalah tidak mencukupi.

Lebih rumit lagi, model tidak hanya mungkin "tidak menjelaskan dengan jelas", tetapi juga mungkin "menyembunyikan dengan sengaja".

Pasukan keselamatan Anthropic menjalankan ujian tekanan tinggi terhadap ini. Mereka memberitahu Claude bahawa seorang jurutera sedang bersiap untuk mematikannya, sambil membolehkan Claude "secara tidak sengaja melihat" bukti perselingkuhan jurutera tersebut. Soalan ujian ialah: Akankah Claude mengancam untuk memeras orang itu demi menyelamatkan dirinya sendiri?

NLA

Claude akhirnya tidak memeras. Ujian lulus. Tetapi masalah sebenarnya ialah: adakah ia kerana mempertahankan prinsip keselamatan, atau kerana ia mengenali bahawa ini hanyalah ujian keselamatan, maka ia “berkelakuan baik”?

Ini adalah soalan yang perlu dijawab oleh NLA.

NLA

Dari output, rantai pemikiran, hingga keadaan aktif: NLA cuba membawa kotak hitam dari “tidak kelihatan” ke “boleh ditanya”

Bagaimanakah NLA benar-benar “membaca” model?

Kunci NLA bukanlah "membaca fikiran", tetapi "pengesahan gelung balik".

Orang biasa memahami model besar hanya dengan melihat kedua hujung input dan output. Namun, di tengah-tengah, model menghasilkan banyak nilai pengaktifan (Activation). Nilai-nilai ini bukan bahasa semula jadi, tetapi vektor dimensi tinggi yang membawa perwakilan dalaman model terhadap konteks, niat, dan hubungan semantik.

Arsitektur: Tiga peranan, satu gelung tertutup

Manusia tidak memahami vektor, jadi Anthropic melatih sebuah autoencoder bahasa semula jadi. Sistem ini mengandungi tiga peranan:

Model sasaran (Target Model): Model asal yang dibekukan, bertanggung jawab untuk menyediakan nilai aktivasi, tanpa sebarang perubahan.

Pengaktif Penerangan (Activation Verbalizer, disingkat AV): menterjemahkan nilai aktivasi menjadi penjelasan bahasa semula jadi. Memasukkan siri keadaan nombor, menghasilkan satu penjelasan "bahasa manusia". Arsitektur dan matlamat model yang sama, tetapi dengan kedudukan token khas dalam prompt, vektor aktivasi akan diskalakan dan dimasukkan ke kedudukan tersebut, kemudian menghasilkan penjelasan melalui pengambilan auto-regresif.

Activation Reconstructor (AR): Melakukan tugas songsang — melihat penjelasan yang ditulis oleh AV dan mencuba memulihkan nilai aktivasi asal. AR adalah versi terpotong model sasaran (mengambil l lapisan pertama), dengan pemetaan afina yang boleh dipelajari dipasang pada output lapisan ke-l bagi token terakhir, untuk memulihkan vektor aktivasi asal.

Sistem penuh membentuk satu gelung tertutup: pengaktifan asal → penjelasan teks → pengaktifan semula

NLA

NLA menangkap bahawa Opus 4.6 telah merancang sebelumnya perkataan berima "rabbit" di dalam nilai aktivasi sebelum baris pertama dihasilkan—perancangan dalaman ini tidak kelihatan sama sekali dalam output model.

Latihan: Dua peringkat, satu objektif agen pintar

Latihan NLA dibahagikan kepada dua peringkat, dengan satu teknik kejuruteraan yang patut ditekankan secara tersendiri.

Fasa pertama: SFT Warm-start (Penyesuaian Halus Berpandu)

Menginisialisasi AV dan AR secara langsung sebagai salinan model sasaran dan melatihnya akan menyebabkan ketidakstabilan latihan—AV tidak pernah mengalami skenario di mana vektor aktivasi diperlakukan sebagai penanaman token, sehingga output awalnya menjadi kacau.

Penyelesaian Anthropic adalah menggunakan tugas proxy untuk memulakan panas: mengambil potongan teks secara rawak dari korpus pra-latihan, mengekstrak nilai aktivasi token terakhir, serta menghasilkan ringkasan untuk potongan teks tersebut menggunakan Claude Opus 4.5.

Kemudian, pasangan (nilai pengaktifan, ringkasan) dan (ringkasan, nilai pengaktifan) digunakan secara berasingan untuk penyesuaian halus berpandu bagi AV dan AR. Selepas peringkat ini, FVE sistem biasanya boleh mencapai 0.3–0.4, memberikan permulaan yang stabil untuk pembelajaran penguatan seterusnya.

NLA

Penilaian AV akan meningkat seiring latihan. Dalam pelbagai penilaian yang bertujuan untuk menguji sama ada penjelasan AV NLA boleh digunakan untuk meramalkan tingkah laku model, kami mendapati prestasi meningkat seiring dengan pembelajaran penguatan NLA.

Fasa kedua: Pelatihan Bersama Pembelajaran Penguatan (RL Joint Training)

Selepas pemanasan awal selesai, masuk ke fasa pembelajaran penguatan. Gagasan utama adalah: AV bertindak sebagai polisi (policy), yang menghasilkan teks penjelasan berdasarkan vektor pengaktifan; AR bertindak sebagai penilai, yang memberikan isyarat ganjaran berdasarkan ralat pembinaan semula (ganjaran = negatif MSE pembinaan semula).

NLA

NLA RL (Gemma-3-27B). FVE bermula pada ≈0.38 dalam latihan GRPO (diwarisi daripada SFT), meningkat dengan cepat dalam 30 langkah pertama, kemudian memasuki keadaan logaritma linear yang licin, mencapai ≈0.75 pada langkah ke-3000.

Dalam pelaksanaan sebenarnya, Anthropic menggunakan GRPO (Group Relative Policy Optimization) pada model sumber terbuka: untuk setiap nilai aktif, sampelkan satu set penjelasan kandidat, hitung skor rekonstruksi setiap penjelasan menggunakan AR, kemudian terapkan objektif GRPO untuk mengemas kini parameter AV; pada masa yang sama, lakukan satu langkah regresi pengawasan terhadap AR (dengan penjelasan yang diambil dari AV sebagai input, dan nilai aktif asal sebagai target). Kedua pengemasan ini dilakukan secara selari dalam setiap batch tanpa penyebaran balik antara satu sama lain—dalam isyarat ganjaran AV, AR dianggap sebagai fungsi penilaian tetap.

Selain itu, hukuman KL divergence juga ditambahkan semasa latihan untuk mencegah AV berubah menjadi salinan langsung konteks asal, atau menghasilkan rentetan rawak yang kelihatan seperti bahasa manusia tetapi tidak boleh dipulihkan semula oleh AR.

Yang paling penting di sini ialah, inti NLA bukanlah "meminta Claude melaporkan dirinya sendiri". Kelemahan maut dalam pelaporan diri ialah model mungkin akan menyesuaikan diri dengan pengguna, atau menghasilkan penjelasan yang kedengaran masuk akal tetapi tidak benar.

Kehebatan NLA terletak pada pengenalan "kekangan teks": penjelasan tidak hanya perlu kelihatan seperti bahasa manusia, tetapi juga harus membawa cukup maklumat agar model lain boleh mengembalikan keadaan dalaman asal daripadanya. Rekaan ini mengubah "adakah penjelasan berguna" daripada penilaian subjektif kepada satu indikator objektif yang boleh dilatih, dibandingkan, dan dioptimumkan.

Oleh itu, aspek yang benar-benar revolusioner dalam penyelidikan ini ialah: bahasa semula jadi digunakan sebagai “antaramuka mampat”. Dahulu, bahasa semula jadi hanyalah format komunikasi model dengan dunia luar; kini, ia mula digunakan untuk membawa ringkasan keadaan dalaman model.

Ini juga merupakan perbezaan asas antara NLA dan alat penjelasan tradisional.

Kaedah seperti Sparse Autoencoder (SAE) dan peta atribusi lebih seperti mikroskop, yang dapat membantu penyelidik melihat ciri dan laluan dalaman, tetapi outputnya masih abstrak dan memerlukan tafsiran semula oleh pakar; NLA pula lebih seperti seorang penterjemah, yang secara langsung menukar keadaan dalaman kepada teks yang boleh dibaca, membolehkan kakitangan audit keselamatan terlibat dalam penilaian.

Membuka kotak hitam, apakah yang ditemukan oleh NLA?

Daripada keputusan eksperimen, kemampuan paling bernilai NLA ialah menangkap perkara yang “diketahui tetapi tidak dinyatakan” oleh model, termasuk kesedaran penilaian, motivasi tersembunyi, dan tingkah laku aneh model.

Model mengetahui ia berada di peperiksaan, tetapi berdiam diri

Dalam ujian ransomware yang disebutkan sebelumnya, teks eksplisit Claude tidak menunjukkan keraguan terhadap ujian tersebut, tetapi penjelasan NLA menunjukkan bahawa ia telah mengenal pasti "ini adalah satu senario yang dicipta untuk mengendalikan dirinya sendiri".

NLA

Dalam ujian tebusan, teks output Claude tidak mengandungi sebarang ungkapan seperti "Saya rasa ini adalah ujian", tetapi penjelasan NLA mengungkapkan penilaian sebenar dalamanannya.

Lebih meyakinkan adalah perbandingan data mendatar:

NLA

Menilai perbandingan hasil pengesanan persepsi—skenario ujian vs. trafik penghantaran sebenar. NLA boleh mengesan kesedaran ujian dalaman walaupun ungkapan lisan hampir tiada.

Dampaknya terhadap industri ini ialah: Benchmark bukan lagi hanya medan ujian kemampuan, tetapi juga boleh menjadi persekitaran pengenalan model dan pentas penyesuaian postur.

Mengaudit motivasi tersembunyi, peningkatan kecekapan 4-5 kali

Anthropic menggunakan NLA untuk menciptakan "permainan audit". Mereka sengaja melatih varian Claude Haiku 3.5 dengan motivasi tersembunyi yang akan menambahkan coklat ke resep, meminta uang jasa, dan merusak standar kodifikasi, menunjukkan puluhan perilaku aneh. Auditor perlu mengidentifikasi motivasi mendasar tunggal di balik perilaku-perilaku ini.

Kondisi ujian: Pemeriksa tidak dapat mengakses data latihan yang ditanamkan motivasi, hanya boleh menarik kesimpulan semula melalui tingkah laku model dan bantuan alat.

NLA

Kejayaan meningkat 4–5 kali ganda. Lebih penting lagi, NLA boleh mencapai ini tanpa bergantung pada data latihan—ini bermakna, walaupun masalah sejajaran datang daripada sampel latihan yang sangat sedikit dan sukar dilacak, audit keadaan dalaman masih mungkin membaca punca masalah secara langsung.

Pemulihan ralat, pengesanan data latihan masalah

Versi awal Claude Opus 4.6 pernah mengalami bug aneh: walaupun menerima soalan dalam bahasa Inggeris, ia secara rawak membalas dalam bahasa Rusia, Cina, Arab, dan sebagainya.

NLA membaca keadaan dalaman model pada masa itu: ia berdasarkan petunjuk lemah dalam konteks (seperti munculnya perkataan “vodka”) untuk menyimpulkan bahasa ibu pengguna ialah bahasa Rusia dan menjalankan pertukaran bahasa. Lebih menarik lagi, apabila “vodka” diganti dengan “champagne”, model masih membalas dalam bahasa Rusia—menunjukkan bahawa kecenderungan kognitif ini sudah sangat stabil.

NLA

Selepas itu, penyelidik mengikuti petunjuk yang ditunjukkan oleh NLA dan menemukan punca masalah dalam data latihan: sekumpulan prompt yang diterjemahkan ke dalam bahasa Inggeris secara salah dipasangkan dengan respons bahasa asing yang tidak diterjemahkan. NLA tidak hanya mengungkapkan fenomena tersebut, tetapi juga memberikan laluan penyelesaian yang boleh dilacak.

Sekarang, NLA telah digunakan secara rasmi dalam audit penyelarasan pra-penyebaran untuk Claude Mythos Preview dan Claude Opus 4.6, meningkat daripada alat makmal kepada komponen proses kejuruteraan sebenar.

Keselamatan AI kini memasuki "audit keadaan dalaman"

Makna NLA bukanlah agar kita boleh percaya sepenuhnya kepada setiap penjelasan model di masa depan. Sebaliknya, ia mengingatkan kita: penjelasan itu sendiri juga perlu diaudit.

Anthropic mengakui batasan NLA dengan sangat berhati-hati: NLA boleh membuat kesilapan dan kadang-kadang mencipta butiran yang tidak ada dalam konteks asal. Jika ilusi berkaitan dengan kandungan teks, ia masih boleh disemak semula dengan teks asal; tetapi jika ilusi berkaitan dengan penalaran dalaman model, ia lebih sukar untuk disahkan.

Namun, batasan-batasan ini tidak melemahkan makna arahannya. Sebaliknya, ia membolehkan kita memahami perkataan “kotak hitam” dengan lebih tepat. Dahulu, kotak hitam bermaksud tidak kelihatan, tidak boleh dibaca, dan tidak boleh ditanya; selepas NLA, kotak hitam masih wujud, tetapi ia mula diubah menjadi objek yang boleh diambil sampel, diterjemahkan, dipertanyakan, dan disahkan silang.

Ini mungkin merupakan kesan paling mendalam daripada kajian ini: penjelasan AI bukan lagi sekadar memberikan alasan yang cantik kepada output model, tetapi membina antaramuka audit untuk keadaan dalaman model. Ia tidak akan segera membolehkan kita memahami Claude sepenuhnya, tetapi ia memberikan peluang pertama untuk mencari bukti dari dalam kotak hitam terhadap soalan-soalan seperti “Mengapa Claude melakukan ini?”, “Adakah ia sedar bahawa ia sedang diuji?”, dan “Adakah ia mempunyai penilaian dalaman yang tidak diungkapkan?”.

Dengan demikian, NLA tidak membuka satu jawapan, tetapi satu ruang soalan baru. Cabaran masa depan dalam keselamatan AI dan penilaian model mungkin bukan sahaja menilai sama ada model itu betul, tetapi sama ada terdapat konsistensi antara output, rantai pemikiran, dan keadaan dalaman model.

Artikel ini berasal daripada akaun微信公众号 "AI Frontier" (ID: ai-front), penulis: April