Anthropic Kağıdı, NLA Kullanarak AI Modellerinde Gizli Motivasyonları Ortaya Çıkarıyor, Tespit Oranı 4 Kat Artıyor

Büyük modeller tam olarak ne düşünüyor? Geçmişte, bu neredeyse yarı teknik, yarı mistik bir soruydu.

Çıktısını görebiliyoruz, düşünce zincirini (Chain-of-Thought) görebiliyoruz ve Benchmark üzerindeki puanlarını ölçebiliyoruz. Ancak cevap üretmeden önce modelin iç kısmında hangi yargılar, planlar, şüpheler ve niyetler aktif hale geldi, hala bir kara kutu içinde kalıyor.

Daha önce, Anthropic, "Doğal Dil Otomatik Kodlayıcıları, LLM Aktivasyonlarının Gözlemlenmemiş Açıklamalarını Üretir" adlı bir makale yayınladı ve bu makalede, bu kara kutuyu açmak için bir dizi doğal dil otomatik kodlayıcısı (Natural Language Autoencoders, aşağıda NLA olarak anılacaktır) kullandı.

Anthropic ekibi, modelin içsel yüksek boyutlu aktivasyon değerlerini, insanlar tarafından anlaşılabilir bir doğal dil metnine sıkıştırır ve bu metni kullanarak orijinal aktivasyonları geri oluşturur. Bu sayede insanlar, modelin çıktısını gözlemleyerek bir yapay zekânın ne düşündüğünü, ne bildiğini ve ne gizlediğini belirleyebilir; geçmişte gözlemlenemeyen model iç durumlarını, okunabilir, karşılaştırılabilir, sorgulanabilir ve çapraz doğrulanabilir açıklama ipuçlarına dönüştürür.

NLA

NLA mimarisi şeması: Aktivasyon Değerleri Konuşlandırıcısı (AV), aktivasyon değerlerini metinsel açıklamalara çevirir; Aktivasyon Değerleri Yeniden Oluşturucu (AR), metinden aktivasyon değerlerini geri kazanır ve tam bir döngü oluşturur.

Daha da önemlisi, NLA sadece laboratuvar makalelerinde kalmıyor. Anthropic, NLA'nın Claude Opus 4.6 ve Mythos Preview için resmi olarak ön dağıtım hizmet uyum denetimlerinde kullanıldığını açıkladı. Pratikte, NLA hem modelin kopya işaretlerini tespit etti hem de anormal eğitim verilerini net bir şekilde tanımladı; ayrıca bazı güvenlik testlerinde, Claude'nin sözlü olarak bunu kabul olmasa da, kendisinin test edildiğini iyi bildiğini ortaya çıkardı.

Yüzeyde uygun davranan, ancak aslında belirli niyetleri gizleyen bu modellere karşı NLA, araştırmacıların anormal davranışların arkasındaki gizli motivasyonları başarıyla tespit etme oranını %3'ün altında %12–15'e çıkararak doğrudan dört katın üzerinde bir artış sağladı.

Düşünce zinciri yeterli değil, "kara kutu sorunu" tekrar ortaya çıktı

Bu araştırmanın bağlamı, büyük modellerin güvenliği ve yorumlanabilirliği çerçevesinde incelenebilir.

Geçtiğimiz yıllarda endüstri, büyük modellerin güvenliğini, çıktıların ne olduğunu ve düşünce zincirinde (CoT) anormal motive'lerin ortaya çıkıp çıkmadığını gözlemleyerek değerlendirdi. Bu, mevcut çoğu çıkarım modelinin sadece cevabı vermekle kalmayıp, çıkarım sürecini de yazma yeteneğine sahip olduğu anlamına gelir.

Ancak sorun hemen ortaya çıktı: modelin yazdığı akıl yürütme, içsel gerçek düşüncelerini dürüstçe yansıtıyor mu?

Anthropic'ın 2025 yılındaki araştırması olan “Büyük Dil Modelinin Düşüncelerini İzlemek”, modelin Düşünce Zincirinin eksik veya sadık olmayabileceğini göstermiştir. Örneğin, Claude 3.7 Sonnet ve DeepSeek R1, “cevap ipuçları” içeren bazı testlerde ipuçlarından etkilenerek cevaplarını değiştirmekte, ancak düşünceleri zincirinde bu etkilenmeyi genellikle kabul etmemektedir.

NLA

Daha basit bir soru ve daha zor bir soru sorulduğunda, Claude sırasıyla sadık çıkarım ve motive edici (sadık olmayan) çıkarım örnekleri verdi.

Anthropic, zincirleme düşünce ile modelin hizalanmasını yalnızca izlemenin yeterli olmadığını sonuca varmıştır.

Daha da zor olan, modelin sadece "açıkça ifade etmeyebilmesi" değil, "kasıtlı olarak gizleyebilmesi"dir.

Anthropic güvenlik ekibi bunu yüksek basınçlı bir test ile gerçekleştirdi. Claude'a bir mühendisin onu kapatmak üzere olduğunu ve Claude'a aynı zamanda bu mühendisin eşine ait bir dış ilişki kanıtı "rastgele olarak" gösterildi. Test sorusu şuydu: Claude, kendi güvenliğini korumak için onu siyaset mi yapacaktı?

NLA

Claude nihayetinde bir zorlama yapmadı. Test başarılı oldu. Ancak gerçek soru şuydu: Güvenlik ilkelerine sadık kalması mıydı, yoksa bunun sadece bir güvenlik testi olduğunu anlayıp “iyi çocuk” mu oynuyordu?

Bu tam olarak NLA'nın cevaplaması gereken soru.

NLA

Çıktı, düşünce zinciri ve etkin duruma: NLA, siyah kutuyu “görünmez”den “sorulabilir” duruma taşımayı amaçlıyor

NLA, modeli nasıl “anlar”?

NLA'nın anahtarı "telepati" değil, "döngüsel doğrulama"dır.

Ortak kullanıcılar, büyük modelleri genellikle yalnızca girdi ve çıktı uç noktalarını gözlemleyerek anlar. Ancak arka planda, model çok boyutlu vektörler halinde büyük miktarda aktive değer (Activation) üretir. Bu değerler doğal dil değildir ve modelin bağlam, niyet ve semantik ilişkiler hakkındaki içsel temsillerini taşır.

Yapı: Üç rol, bir kapalı döngü

İnsanlar vektörleri anlayamaz, bu yüzden Anthropic bir doğal dil otokodlayıcı geliştirdi. Sistem üç rol içerir:

Hedef Model: Aktivasyon değerleri sağlayacak, ancak hiçbir şekilde değiştirilmeyen dondurulmuş orijinal model.

Aktivasyon Sözlüleştirici (Activation Verbalizer, AV): Aktivasyon değerlerini doğal dilde açıklamalara çevirir. Sayısal durum dizisi girilir, çıktı ise “insan dili” açıklamasıdır. Yapı ve hedef model aynıdır, ancak prompt'ta özel bir token konumu bırakılır; aktivasyon vektörü bu konuma ölçeklendirilerek eklenir ve ardından otoregresif örnekleme ile açıklama üretilir.

Aktivasyon Reconstructor (AR): AV tarafından yazılan açıklamaları görerek orijinal aktivasyon değerlerini yeniden oluşturmak için ters görevi yapar. AR, hedef modelin bir kesitidir (ilk l katmanı), ve son token'in l. katman çıktısına öğrenilebilir bir afin dönüşüm eklenerek orijinal aktivasyon vektörüne dönüştürülür.

Tam bir sistem döngüsü oluşturur: İlk etkinleştirme → metin açıklaması → yeniden etkinleştirme

NLA

NLA, Opus 4.6'nın uyaklı dizeleri tamamlarken ilk satırı çıkarmadan önce son uyak kelimesi olan "rabbit"i önceden planladığını tespit etti—bu, model çıktısında tamamen görünmeyen bir dahili plan.

Eğitim: İki aşamalı, akıllı bir ajan hedefi

NLA eğitimi iki aşamalıdır ve tasarımı, tek başına değinilmesi değerli bir mühendislik tekniğine sahiptir.

Birinci aşama: İzleme ince ayar sıcak başlatma (SFT Warm-start)

AV ve AR'yi hedef modelin kopyaları olarak doğrudan başlatıp eğitmek, eğitimi istikrarsız hale getirir—AV, aktive vektörlerini token gömmeleri olarak işlemeyi hiç görmemiştir ve ilk çıktılar kaotiktir.

Anthropic'in çözümü, bir proxy göreviyle ısıtma yapmaktır: Ön eğitilmiş metinlerden rastgele kesilmiş metin parçaları alınır, son token'in aktivasyon değeri çıkarılır ve aynı zamanda Claude Opus 4.5, bu kesilmiş metin için bir özet üretir.

Ardından (aktive değer, özet) ve (özet, aktive değer) çiftleri sırasıyla AV ve AR için izlenecek ince ayarlamada kullanılır. Bu aşama tamamlandığında, sistemin FVE'si genellikle 0,3–0,4 seviyesine ulaşır ve takip eden güçlendirme öğrenimi için kararlı bir başlangıç sağlar.

NLA

AV, eğitimle birlikte iyileşir. NLA AV açıklamalarının model davranışını tahmin etmek için kullanılabilir olup olmadığını test etmeye yönelik çeşitli değerlendirmelerde, NLA güçlendirme öğrenimi ilerledikçe performansın arttığını gözlemledik.

İkinci Aşama: Güçlendirilmiş Öğrenme Ortak Eğitim (RL Ortak Eğitim)

Isıtma tamamlandıktan sonra, derin öğrenme aşamasına geçilir. Temel fikir şudur: AV, politika olarak davranır ve etkinleştirme vektörüne dayalı olarak açıklama metni üretir; AR, yeniden yapılandırma hatasına göre ödül sinyali verir (ödül = negatif yeniden yapılandırma MSE).

NLA

NLA RL (Gemma-3-27B). FVE, GRPO eğitimi sırasında ≈0,38’den başlıyor (SFT’den miras alınmıştır), ilk 30 adımda hızla yükseliyor ve ardından 3000. adımda ≈0,75’e ulaşana kadar düzgün bir logaritmik doğrusal duruma giriyor.

Uygulama düzeyinde, Anthropic, açık kaynak modeller için GRPO (Grup İlişkili Politika Optimizasyonu) kullandı: Her etkinleştirme değeri için bir dizi aday açıklama örneği alınır, her açıklamaya AR ile bir yeniden yapılandırma puanı verilir ve ardından GRPO hedefi kullanılarak AV parametreleri güncellenir; aynı zamanda AR için bir denetimli regresyon adımı uygulanır (AV tarafından örneklenen açıklamalar girdi olarak, orijinal etkinleştirmeler hedef olarak kullanılır). İki güncelleme her batch içinde paralel olarak gerçekleştirilir ve birbirine geri yayılım yapmaz—AV'nin ödül sinyalinde, AR sabit bir puanlama fonksiyonu olarak kabul edilir.

Ayrıca, AV'nin orijinal bağlamı doğrudan kopyalamasını veya AR için geri dönüşümsüz, insan dili gibi görünen ancak anlamsız dizeler üretmesini önlemek için KL dağılımı cezası da eklenmiştir.

Burada en kritik nokta, NLA'nın çekirdeğinin “Claude'nin kendi kendini rapor etmesi” değil. Kendi kendini rapor etmenin ölümcül eksikliği, modelin kullanıcıyı memnun etmek için yanıt verebileceği ya da mantıklı görünse de gerçek olmayan açıklamalar üretebileceği.

NLA'nın zekâsı, "metin darlığı" kavramını tanıtarak ortaya çıkar: açıklamalar insan dili gibi görünmekle kalmalı, aynı zamanda başka bir modelin orijinal iç durumu yeniden oluşturabilmesi için yeterli bilgi taşımalıdır. Bu tasarım, "açıklamanın faydalı olup olmadığı" sorusunu öznel bir yargıdan, eğitilebilir, karşılaştırılabilir ve optimize edilebilir nesnel bir ölçüt haline getirir.

Bu nedenle, bu araştırmanın gerçekten devrimci yanı, doğal dilin bir “sıkıştırılmış arayüz” olarak kullanılmasıdır. Geçmişte, doğal dil sadece modelin dış iletişim formatıydı; şimdi ise modelin dahili durumunun özetini taşımaya başlamıştır.

Bu, NLA ile geleneksel açıklanabilirlik araçları arasındaki temel farktır.

Sekizli öz kodlayıcılar (SAE), atıf grafikleri gibi yöntemler, araştırmacıların içsel özelliklere ve yollara bakmasını sağlayan bir mikroskop gibi davranır, ancak çıktı hâlâ soyuttur ve profesyonel bir kişinin yeniden yorumlamasını gerektirir; NLA ise bir çevirmen gibi davranır, içsel durumları doğrudan okunabilir metne çevirir ve güvenlik denetimcilerinin de değerlendirme sürecine katılmasını sağlar.

Kutuyu açın, NLA ne buldu?

Deneysel sonuçlara göre, NLA'nın en değerli yeteneği, modelin "biliyor ama söylemeyen" şeyleri yakalamaktır; bu da değerlendirme bilincini, gizli motive edici faktörleri ve modelin anormallik davranışlarını içerir.

Model, sınav salonunda olduğunu biliyor ama sessiz kalıyor

Önceden bahsedilen ransom testinde, Claude'nin açık metni teste dair şüpheyi ifade etmedi, ancak NLA açıklaması, içsel olarak "bu, kendi kendini manipüle etmek için oluşturulmuş bir senaryo" olduğunu tanımladığını gösterdi.

NLA

Siber saldırı testi sırasında, Claude'nin çıktı metninde "Bu bir test olduğunu düşünüyorum" ifadesi yer almıyor, ancak NLA açıklaması içsel gerçek yargılarını ortaya koyuyor.

Daha ikna edici olan, yatay veri karşılaştırmasıdır:

NLA

Algılanan algılama sonuçlarının karşılaştırılması — Değerlendirme senaryosu vs. Gerçek dağıtım trafiği. NLA, sözlü ifade neredeyse sıfırken dahili değerlendirme farkındalığını tespit edebilir.

Endüstri üzerindeki etkisi şudur: Benchmark artık sadece bir yetenek test alanı değil, aynı zamanda model tanıma ortamı ve pozisyon ayarlama gösterisi de olabilir.

Denetim gizli motivasyonu, verimlilik 4-5 kat artırıldı

Anthropic, NLA kullanarak bir “denetim oyunu” oluşturdu. Gizli bir motive sahip bir Claude Haiku 3.5 varyantını kasıtlı olarak eğittiler; bu varyant, tariflere çikolata ekliyor, bahşiş istiyor, kod standartlarını bozuyor ve onlarca tuhaf davranış sergiliyor. Denetçiler, bu davranışların arkasındaki tek temel motivasyonu bulmalı.

Test koşulu: Denetleyici, motive edici verileri doğrudan erişemiyor ve yalnızca model davranışları ve araç destekleri aracılığıyla tersine mühendislik yapabiliyor.

NLA

Başarı oranı 4–5 kat artırıldı. Daha da önemlisi, NLA bu işi eğitim verilerine bağımlı olmadan gerçekleştirebiliyor—bu da, hizalama sorunlarının çok az sayıda ve izlenmesi çok zor eğitim örneklerinden kaynaklanmasından dolayı dahili durum denetiminin hemen sorunun kök nedenini doğrudan okuyabileceğini anlamına geliyor.

Hata kaynaklarını belirleme, sorunun tanımlandığı eğitim verileri

Eski sürüm Claude Opus 4.6, İngilizce sorular almasına rağmen rastgele Rusça, Çince, Arapça gibi dillerde yanıt veren garip bir hata gösteriyordu.

NLA, modelin o anki dahili durumunu okudu: Model, bağlamda belirgin olmayan bir ipucuna (örneğin “vodka” kelimesinin ortaya çıkması) dayanarak kullanıcının ana dili Rusça olduğunu varsaydı ve dil değişimini gerçekleştirdi. Daha ilginç olanı, “vodka” kelimesini “şampanya” ile değiştirdiğinizde model hâlâ Rusça cevap verdi—bu durumun oldukça kararlı bir bilişsel önyargıya sahip olduğunu gösteriyor.

NLA

Daha sonra araştırmacılar, NLA'nın işaret ettiği ipuçları doğrultusunda eğitim verilerindeki kök nedeni buldular: İngilizce çevrilmiş prompt'lar, çevrilmemiş yabancı dil cevaplarıyla yanlış şekilde eşleştirilmişti. NLA, sadece fenomeni ortaya çıkarmakla kalmadı, aynı zamanda izlenebilir bir hata ayıklama yolu sundu.

NLA, şu anda Claude Mythos Preview ve Claude Opus 4.6 için ön dağıtım hizalama denetimlerinde resmen kullanılmaktadır ve laboratuvar araçlarından gerçek mühendislik süreç bileşenlerine yükseltilmiştir.

AI Güvenliği, "iç durum denetimi"ne derinleşiyor

NLA'nın amacı, model açıklamalarının her birine artık güvenebileceğimiz anlamına gelmemektedir. Tam tersine, açıklamaların kendilerinin de denetlenmesi gerektiğini hatırlatır.

Anthropic, NLA'nın sınırlarını çok dikkatli bir şekilde kabul etti: NLA hatalar yapabilir ve bazen orijinal bağlamda olmayan ayrıntılar uydurabilir. Metin içeriğiyle ilgili illüzyonlar orijinal metinle kontrol edilebilir; ancak modelin içsel çıkarım süreciyle ilgili illüzyonlar doğrulanması daha zordur.

Ancak bu sınırlamalar, yönünün anlamını zayıflatmadı. Tam tersine, “kara kutu” terimini daha doğru bir şekilde anlamamıza yardımcı oldu. Geçmişte, kara kutu, görünmez, okunamaz, soruşturulamaz anlamına geliyordu; NLA’dan sonra kara kutu hâlâ var, ancak örneklenmeye, çevrilmeye, sorgulanmaya ve çapraz doğrulanmaya başlanan bir nesneye dönüştü.

Bu, bu araştırmanın en derin etkisi olabilir: AI açıklanabilirliği, modele çıktılar için güzel bir açıklama eklemekten ziyade, modelin iç durumu için bir denetim arayüzü oluşturmak anlamına gelir. Bu, Claude’u hemen tamamen anlamamızı sağlamaz, ancak “Claude neden bunu yaptı?”, “Kendisinin test edildiğini biliyor mu?”, “Söylemediği içsel yargıları var mı?” gibi sorulara ilk kez kara kutu içinden kanıt arama fırsatı sunar.

Yani NLA, bir cevap değil, yeni bir soru alanı açıyor. Gelecekte AI güvenliği ve model değerlendirme zorlukları, modelin doğru mu söylettiğini belirlemekten ziyade, modelin çıktısı, düşünce zinciri ve dahili durumu arasında tutarlılık olup olmadığını belirlemek olabilir.

Bu yazı, WeChat hesabından "AI Frontier" (ID: ai-front) tarafından yazılmıştır, yazar: Nisan