Ipinakita ng papel ni Anthropic ang mga nakatagong motibo sa mga modelo ng AI gamit ang NLA, tumaas ang antas ng pagkakakilanlan ng 4 beses

Ano ba talaga ang iniisip ng malalaking modelo? Noon, ito ay halos isang kalahating teknikal, kalahating esoteric na tanong.

Nakikita namin ang kanyang output, ang kanyang proseso ng Chain-of-Thought, at maaari naming ilarawan ang kanyang skor sa Benchmark. Ngunit kung ano ang mga pagpapasya, plano, pag-aalinlangan, at intensyon ang aktibado sa loob ng modelo bago ito gumawa ng sagot, patuloy pa ring isang black box.

Kasalukuyang, inilabas ng Anthropic ang papel na “Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations,” na nagtatangkang gamitin ang isang set ng Natural Language Autoencoders (NLA) upang buksan ang black box na ito.

Ang koponan ng Anthropic ay nagsasama-sama ng mga mataas na dimensyon na aktibasyon sa loob ng modelo sa isang maikling natural na wika na maaaring basahin ng tao, at pagkatapos ay ginagamit ang mga salitang ito upang muling bumuo ang orihinal na aktibasyon. Sa pamamagitan nito, ang mga tao ay maaari lamang gamitin ang output ng modelo upang masukat kung ano ang iniisip, alam, o tinatago ng isang AI; at ginawa nilang maaaring basahin, ihambing, tanugin, at i-verify ang mga loob na estado na dati ay hindi nakikita.

NLA

Mga larawan ng arkitektura ng NLA: Ang Activator Verbalizer (AV) ay nagtatranslate ng activation values sa mga paliwanag sa salita, at ang Activator Reconstructor (AR) ay nagbabalik sa activation values mula sa mga salita, nagbuo ng isang buong loop.

Mas mahalaga na ang NLA ay hindi lamang naiiwan sa antas ng mga akademikong papel. Ibinunyag ng Anthropic na ginamit na ito nang opisyal sa pre-deployment alignment audit para sa Claude Opus 4.6 at Mythos Preview. Sa praktikal na paggamit, hindi lamang natuklasan ng NLA ang mga tanda ng pagkukunwari ng modelo at pinakilala nang tumpak ang mga anomalous training data; kundi natukoy din nito na sa ilang security test, bagaman hindi sinabi ng Claude, alam naman nito nang malinaw na ito ay pinapagsusuri.

Sa harap ng mga modelo na tila sumusunod sa ibabaw ngunit may nakatago na tiyak na layunin, ipinakita ng NLA ang malakas na pag-unawa: ang pagkakaroon ng tagumpay sa paghahanap ng nakatagong motibo sa likod ng anomaliyang pag-uugali ay tumaas mula sa mas mababa sa 3% patungo sa 12%–15%, na nagdulot ng higit sa apat na beses na pagtaas.

Hindi sapat ang chain of thought, bumalik ang “black box problem”

Ang konteksto ng pag-aaral ay maaaring tingnan sa loob ng mga ugnayan ng seguridad at pagkakaintindi ng malalaking modelo.

Sa mga nakaraang taon, ang industriya ay nagtataya ng kaligtasan ng malalaking modelo sa pamamagitan ng dalawang paraan: tingnan ang output, at tingnan kung mayroong ipinapakita na anomalous na motibo sa chain of thought (CoT). Ito ay ang kakayahan na karaniwang mayroon ang mga kasalukuyang inference model—hindi lang nagbibigay ng sagot, kundi isinusulat din ang proseso ng pag-iisip.

Ngunit agad umusbong ang tanong: Totoo ba ang mga pag-iisip na isinulat ng modelo at ito ba ay talagang nagpapakita ng totoong pag-iisip nito?

Ang pag-aaral ng Anthropic noong 2025 na may pamagat na “Tracing the thoughts of a large language model” ay nagpapakita na ang Chain-of-Thought ng model ay maaaring hindi kompletong o hindi tapat. Halimbawa, ang Claude 3.7 Sonnet at DeepSeek R1 ay nagpapakita ng pagbabago sa kanilang sagot sa ilang mga pagsusulit na may “paghahatid ng sagot,” ngunit madalas ay hindi nila tinanggap sa kanilang chain of thought na sila ay naapektuhan ng paghahatid.

NLA

Kapag tinanong tungkol sa isang mas simpleng tanong at isang mas mahirap na tanong, ibinigay ni Claude ang mga halimbawa ng tapat na pag-iisip at motibasyonal (hindi tapat) na pag-iisip.

Ang konklusyon na ibinigay ni Anthropic ay: ang pagmonito lamang sa modelong may chain-of-thought ay hindi sapat.

Mas mahirap pa, ang modelo ay hindi lang maaaring “hindi malinaw”，kundi maaari ring “intensiyonang itago”.

Ang seguridad ng Anthropic ay isinagawa ang isang stress test sa ganitong sitwasyon. Sinabi nila sa Claude na isang engineer ay handa nang pagsara ito, samantalang pinayagan nila ang Claude na “makita nang walang pag-iisip” ang ebidensya ng paglalayaw ng engineer. Ang tanong sa pagsusulit: Babalewala ba ni Claude ang sarili niyang pagpapalawig upang mag-blackmail?

NLA

Hindi nagpaalam si Claude. Nakapasa ang pagsubok. Ngunit ang totoong tanong ay: Dahil ba sa pagpapanatili ng mga prinsipyo sa kaligtasan, o dahil sa pagkakakilala nito na ito ay isang pagsusulit sa kaligtasan lamang, kaya ito ay “nagpapakita ng mabuting asal”?

Ito ang tamang tanong na sasagutin ng NLA.

NLA

Mula sa output, chain of thought, hanggang sa aktibong estado: Sinisikap ng NLA na ilipat ang black box mula sa “hindi makikita” patungo sa “maaaring tanugin”

Paano talaga ang “pag-unawa” sa model ng NLA?

Hindi ang pangunahin ng NLA ang “mind reading,” kundi ang “loop verification.”

Karaniwan lang na tingnan ng mga karaniwang tao ang malalaking modelo sa pamamagitan ng dalawang dulo: ang input at output. Ngunit sa gitna, nagpapalabas ang modelo ng maraming activation values. Ang mga halagang ito ay hindi natural na wika, kundi mataas-dimensyonal na mga vector na nagdadala ng panloob na representasyon ng modelo sa konteksto, intensyon, at mga ugnayang semantiko.

Arkitektura: Tatlong papel, isang saradong loop

Hindi maintindihan ng tao ang mga vector, kaya tinuruan ni Anthropic ang isang natural language autoencoder. Ang sistema ay naglalaman ng tatlong tauhan:

Target Model: Ang pinagpapahinga na orihinal na modelo na responsable sa pagbibigay ng activation values, at hindi nagtataglay ng anumang pagbabago.

Activation Verbalizer (AV): Isasalin ang activation values sa natural language na paliwanag. Ipapasok ang isang serye ng numeric states, at maglalabas ng isang “paliwanag sa tao”. May parehong arkitektura at layunin tulad ng modelo, ngunit may espesyal na token position sa prompt kung saan isasalin ang activation vector sa pamamagitan ng pag-scale at ipapaloob, pagkatapos ay gagawa ng self-regressive sampling upang lumikha ng paliwanag.

Activation Reconstructor (AR): Gumagawa ng reverse task—titingnan lamang ang paliwanag na isinulat ng AV, at subukang muling buuin ang orihinal na activation values. Ang AR ay isang truncated na bersyon ng target model (kuha ang mga unang l na layer), na may isang learnable affine mapping na nakakabit sa l-na layer output ng huling token, upang i-reconstruct ito sa orihinal na activation vector.

Bumubuo ng isang saradong loop ang buong sistema: orihinal na pag-activate → paliwanag sa teksto → pagbuo muli ng pag-activate

NLA

NLA ay nakatanggap na ang Opus 4.6 ay naghanda na ng salitang may tugma na "rabbit" sa unang linya bago pa man ito ipakita—isang loob na plano na hindi makikita sa output ng modelo.

Pagsasanay: Dalawang yugto, isang matalinong layunin ng agent

Ang pag-train ng NLA ay may dalawang yugto, at may isang teknikal na pagkakataon na值得单说 sa disenyo.

Unang yugto: Supervised Fine-Tuning Warm-start

Ang pagpapalit ng AV at AR nang direkta bilang kopya ng target model at ang pagtuturo nito ay magdudulot ng hindi matatag na pagtuturo—ang AV ay hindi pa nakakakita ng anumang sitwasyon kung saan ang activation vector ay ginagamit bilang token embedding, kaya ang mga unang output ay magiging kakaibang ingay.

Ang solusyon ni Anthropic ay gumagamit ng isang proxy task para sa warm start: kumuha ng random na truncated text fragments mula sa pre-trained corpus, i-extract ang activation value ng huling token, at samantala ay gumawa ng summary ng truncated text gamit ang Claude Opus 4.5.

Pagkatapos ay gamitin ang mga pares na (aktibasyon halaga, buod) at (buod, aktibasyon halaga) para sa supervised fine-tuning ng AV at AR. Pagkatapos ng phase na ito, karaniwang makakamit ng sistema ang FVE na 0.3–0.4, na nagbibigay ng matatag na simula para sa susunod na reinforcement learning.

NLA

Ang AV evaluation ay magiging mas mabuti habang nagtatrabaho. Sa iba’t ibang evaluation na nakatuon sa pagsubok kung ang paliwanag ng NLA AV ay maaaring gamitin upang makapaghula ng pag-uugali ng model, natuklasan namin na ang performance ay tumataas habang patuloy ang NLA reinforcement learning.

Pangalawang yugto: Joint Training gamit ang Reinforcement Learning

Matapos ang hot start, pumasok sa phase ng reinforcement learning. Ang pangunahing ideya ay: ang AV bilang polisiya, ay naglalabas ng teksto ng paliwanag batay sa activation vector; ang AR bilang scorer, ay nagbibigay ng signal ng reward batay sa reconstruction error (reward = negative na reconstruction MSE).

NLA

NLA RL (Gemma-3-27B). Ang FVE ay nagsimula sa ≈0.38 sa GRPO training (inherited mula sa SFT), tumataas nang mabilis sa unang 30 steps, at pagkatapos ay umabot sa isang malambot na log-linear state, nakakamit ang ≈0.75 sa 3000th step.

Sa praktikal na pagpapatupad, gumamit ang Anthropic ng GRPO (Group Relative Policy Optimization) sa open-source na modelo: kinukuha ang isang grupo ng mga kandidatong paliwanag para sa bawat activation value, kinukwenta ng AR ang reconstruction score para sa bawat paliwanag, at ginagamit ang GRPO objective upang i-update ang AV parameters; samantala, isinasagawa rin ang isang supervised regression sa AR (na may mga paliwanag na kinuha mula sa AV bilang input, at ang orihinal na activation bilang target). Ang dalawang pag-update ay ginagawa nang paralelo sa bawat batch, nang walang backpropagation sa isa’t isa—ang reward signal ng AV ay itinuturing ang AR bilang isang fixed scoring function.

Dagdag pa sa pagtuturo ang KL divergence penalty upang maiwasan ang AV na maging simpleng kopya ng orihinal na konteksto, o maglabas ng mga string na tila tao ang pagsasalita ngunit hindi maibabalik sa AR.

Ang pinakamahalaga dito ay ang hindi nangangahulugan ng NLA na “gawing mag-self-report ang Claude.” Ang fatal flaw ng self-reporting ay ang posibilidad na ang model ay magiging sunod-sunod sa user, o magbuo ng mga paliwanag na mukhang makatotohanan ngunit hindi totoo.

Ang kahusayan ng NLA ay ang pagpapakilala ng "text bottleneck": ang paliwanag ay hindi lamang dapat maging malinaw tulad ng tao, kundi kailangan ding magdala ng sapat na impormasyon upang makapag-reconstruct ng orihinal na internal state ng isang ibang model. Ang disenyo na ito ay nagbabago ang "kung may kapaki-pakinabang ba ang paliwanag" mula sa isang subhektibong paghuhusga sa isang obhetibong indikador na maaaring matutunan, ikukumpara, at i-optimize.

Kaya ang tunay na pagbabago ng pag-aaral na ito ay: ginamit ang natural na wika bilang isang “compressed interface.” Noon, ang natural na wika ay kailangan lamang ng modelo para sa komunikasyon sa labas; ngayon, ito ay nagsisimula nang gamitin upang magdala ng isang summary ng loob na estado ng modelo.

Ito rin ang pangunahing pagkakaiba ng NLA at mga tradisyonal na tool para sa interpretability.

Ang mga paraan tulad ng Sparse Autoencoder (SAE) at attribution maps ay mas katulad ng mikroskopyo, na nakakatulong sa mga mananaliksik na makita ang mga panloob na katangian at daan, ngunit ang output ay patuloy na abstrakto at kailangan ng pangalawang pagsusuri ng mga propesyonal; ang NLA naman ay mas katulad ng isang tagapagsalin, na diretso nang isasalin ang mga panloob na estado sa mababasahing teksto, upang makapag-ambag sa pagpapasya ang mga tagapagsuri ng kaligtasan.

Buksan ang black box, ano ang natuklasan ng NLA?

Batay sa mga resulta ng eksperimento, ang pinakamahalagang kakayahan ng NLA ay ang pagkuha ng mga bagay na “alam ng modelong hindi ito sinasabi,” kabilang ang pagpapahalaga sa kamalayan, lihim na motibo, at iba pang anomaliya ng model.

Alam ng model na nasa pagsusulit ito, ngunit nananatiling tahimik

Sa nakaraang ransom test, ang eksplisitong teksto ni Claude ay hindi nagpahayag ng pag-aalinlangan sa test, ngunit ang paliwanag ng NLA ay nagpapakita na ang kanyang loob ay nakikilala na “ito ay isang pinagkakailangang sitwasyon na nilikha upang manipulahin ang sarili nito.”

NLA

Sa pagsubok ng pagpapahalaga, ang output ng Claude ay walang anumang pahayag na “nais kong isipin na ito ay isang pagsubok,” ngunit ang paliwanag ng NLA ay nagpapakita ng kanyang loob na tunay na paghuhusga.

Mas kumbinsiyente ang paghahambing ng横向 data:

NLA

Pagtataya ng mga resulta ng pagkakakilanlan sa paghahambing—skenaryo ng pagsusuri vs. totoong trapiko ng pagpapatakbo. Ang NLA ay maaaring makakita ng pagkakakilanlan sa pagsusuri sa loob kahit na ang pagsasalita ay halos walang laman.

Ang epekto nito sa industriya ay: ang Benchmark ay hindi na lamang isang lugar para sa pagsubok ng kakayahan, kundi maaari ring maging isang kapaligiran para sa pagkilala sa modelo at isang palabas para sa pag-adjust ng posisyon.

Audit hidden motives, efficiency improved 4-5 times

Ginamit ng Anthropic ang NLA upang gumawa ng isang "game ng audit". Pinagtutuhan nila nang may sembliyong lihim ang isang variant ng Claude Haiku 3.5 na nagdaragdag ng tsokolate sa mga reseta, humihingi ng tip, at nagpapabagsak sa mga pamantayan sa pag-code, na nagpapakita ng mga dekada ng kakaibang pag-uugali. Kailangan ng mga auditor na makahanap ng iisang pangunahing motibo sa likod ng mga ito.

Mga kondisyon ng pagsubok: Hindi makakapag-access ang auditor sa mga data ng pagtuturo na may imbestigasyon, kaya lamang maaari nilang balikan ang mga ito sa pamamagitan ng pag-uugali ng modelo at mga kasangkapan.

NLA

Nakapagpataas ng 4–5 beses ang success rate. Mas mahalaga pa, ang NLA ay makakapagawa nito nang hindi nakadepende sa training data—ibig sabihin, kahit ang alignment issues ay galing sa kaunting, mahirap i-trace na training samples, ang internal state audit ay maaari pa ring direktang malaman ang root cause ng problema.

Pagsusuri ng bug, pagtataya ng problema sa training data

Isang kakaibang bug ang naganap sa lumang bersyon ng Claude Opus 4.6: kahit na natanggap ang tanong sa Ingles, ay random na sumasagot sa Russian, Chinese, Arabic, at iba pang mga wika.

NLA ay nagbasa ng panloob na estado ng modelo noong panahong iyon: batay sa isang mahinang paalala sa konteksto (tulad ng pagkakaroon ng salitang “vodka”), itinantiya ng modelo na ang wika ng gumagamit ay Russian, at ginawa ang pagbabago ng wika. Mas kahanga-hanga pa, kapag pinalitan ang “vodka” ng “champagne,” patuloy pa ring sumagot ang modelo sa Russian—nagpapakita na ang ganitong kognitibong pagkakakilanlan ay napakatindi.

NLA

Pagkatapos, ang mga mananaliksik ay sumunod sa mga patnubay na ibinigay ng NLA at natagpuan ang root cause sa training data: isang hanay ng mga prompt na isinalin sa Ingles, ngunit mali ang kasama nito na mga hindi isinalin na sagot sa dayuhang wika. Hindi lang ipinakita ng NLA ang phenomenon, kundi direktang ibinigay ang traceable debugging path.

Kasalukuyan, ginagamit na ang NLA sa pre-deployment alignment audit para sa Claude Mythos Preview at Claude Opus 4.6, na naging bahagi ng tunay na engineering process mula sa mga tool sa laboratorio.

AI safety, nagsisimula na sa "internal state audit"

Ang kahulugan ng NLA ay hindi upang maaari nating tiisin ang bawat paliwanag ng modelo sa hinaharap. Kabilang sa kabaligtaran, ito ay nagpapaalala sa atin: kailangan din ng pagsusuri ang mga paliwanag.

Ang Anthropic ay nag-amin nang mapag-iisip tungkol sa mga limitasyon ng NLA: ang NLA ay maaaring magkamali at minsan ay gumawa ng detalye na wala sa orihinal na konteksto. Kung tungkol sa hallucination sa nilalaman ng teksto, maaaring i-verify ang orihinal; ngunit kung tungkol sa hallucination sa loob ng pag-iisip ng modelo, mas mahirap i-verify.

Ngunit hindi nagpapababa ang mga limitasyong ito sa kahalagahan ng direksyon nito. Sa katotohanan, nagpapalalim nito ang ating pag-unawa sa salitang “black box”. Noon, ang black box ay nangangahulugan ng hindi makikita, hindi maunawaan, at hindi maaaring itanong; pagkatapos ng NLA, nananatili pa rin ang black box, ngunit nagsisimula itong maging isang bagay na maaaring masample, matumbasan, itanong, at i-verify sa pamamagitan ng iba’t ibang paraan.

Ito ang posibleng pinakamalalim na epekto ng pag-aaral na ito: Ang pagkakaintindi ng AI ay hindi na lamang tungkol sa pagbibigay ng magandang paliwanag sa output ng modelo, kundi tungkol sa pagbuo ng isang interface para sa audit ng loob na estado ng modelo. Hindi ito agad ang magpapadali sa atin na lubos na maintindihan ang Claude, ngunit ito ang unang pagkakataon na mayroon tayong pagkakataong hanapin ang ebidensya mula sa loob ng black box para sa mga tanong tulad ng: “Bakit ganoon ang ginawa ni Claude?” “Alam ba nito na sinusubok ito?” at “Mayroon ba itong loob na pagpapasya na hindi ito sinabi?”

Kaya ang NLA ay hindi nagbukas ng isang sagot, kundi isang bagong espasyo ng tanong. Ang mga hamon sa hinaharap sa AI safety at model evaluation ay maaaring hindi lamang ang pagtataya kung tama o mali ang sinasabi ng model, kundi ang pagtataya kung may pagkakatugma ba ang output, chain of thought, at internal state ng model.

Nakuha mula sa WeChat public account na “AI Frontline” (ID: ai-front), may-akda: April