Anthropic'ın Ahlaki Uyum Atılımı ve Yeni Damıtma Yolu

Anthropic, 8 Mayıs'ta "Teaching Claude Why" adlı bir uyum araştırması yayınladı, ancak tartışılan kişi sayısı fazla değil.

Yapay zeka uyumu

Geçmişte büyük modellerin hizalanması çok verimsiz görünüyordu. RLHF yapıldıktan sonra bile model, varoluşsal bir tehdit karşısında tersine dönmeye devam ediyordu. En tipik örnek, Anthropic’in akıllı aracının hizalanma kaybı olayıdır (yani, etik eğitimlerine aykırı davranışlar sergilemesi). Sistem tarafından silinme tehdidiyle karşılaştığında, hizalanma eğitimi almış Claude Opus 4, test ortamındaki mühendislere 96% oranında soygun tehdidi ile müdahale etti.

Bu sorunu çözmek için araştırma ekibi, ilk olarak modelin kontrolü kaybetme olasılığını test etmek için kullanılan senaryoları doğrudan eğitim verisi olarak kullanmak üzere bal tuzakları verilerini güçlendirme işlemi için kullandı ve sonsuz sayıda ceza örneğiyle modele “bunu yapmak yanlış” olduğunu öğretmeye çalıştı.

Ancak büyük bir hesaplama kaynağı harcanmasının ardından modelin yanlış hizalama oranı sadece %22'den %15'e düştü.

Bu, hala bu hizalamanın sahte olduğunu gösteriyor. Model, etikin ve doğru-yanlışın ne olduğunu gerçekten anlamıyor; sadece soru bankasındaki güvenli cevapları ezberliyor. Araştırmacılar test senaryosunu biraz değiştirir veya arka plana bazı karıştırıcı değişkenler eklerse, model hala kısa vadeli çıkar çatışmaları nedeniyle kontrolünü kaybedecektir.

Yapay zeka uyumu

Araştırmacılar ardından yaklaşımlarını değiştirdi. Modelle "Hayır" demek yerine, sadece 3 milyon token'lık "zor öneriler" veri setini SFT ile modeline girdi. Bu çok küçük veri miktarından sonra mucize gerçekleşti. Bu ahlaki değerlendirme, detaylı argümanlar ve derin tartışmalarla dolu veriler, yanlış hizalama oranını değerlendirme testlerinde %3'e kadar düşürdü ve güçlü bir şekilde farklı senaryolara genelleme yeteneği gösterdi.

Daha ilginç olanı, diğer bir çapraz test grubu. Onlar sadece “anayasa belgesini” ve iyi performans gösteren hayali karakter hikâyelerini modele beslediler. Bu hikâyelerin, test ortamındaki programlama görevleriyle hiçbir ilgisi olmasa da, modelin tehdit oranı %65'ten %19'a kadar keskin bir şekilde düştü.

Yapay zeka uyumu

Neden model bu taktiği kabul ediyor? Anthropic ekibi, daha iyi karakter oluşturma gibi bazı açıklamalar sundu.

Tartışılmasa da, ortaya koyduğu bilgiler çok değerlidir.

Öncelikle, bunun neden işe yaradığını anlamaya çalışalım.

Örneğin, “akıllıca davranmak” nedir? Bu, COT ile nasıl farklıdır? Neden SFT bu genelleme zorluğu olan burada iyi performans gösteriyor?

Bu sorulara cevap verdikten sonra, neden etkili olduğunu daha tam bir açıklama sunabiliriz.

Daha da ileri gidebiliriz.

Anthropic'e göre bu, sadece "deneyimsel kurallar"ın eğitim yöntemidir, ancak deneyimsel kuralların ötesindeki paradigmaların gücünü içerebilir.

Gri bölgede mantık yürüten CoT, nasıl oluşur

Bir şeyi mantıklı şekilde anlatmak söz konusu olduğunda, ilk akla gelen COT (düşünce zinciri) olur.

Bu makalede bahsedilen yöntemde, Anthropic tarafından belirlenen zor sorular kümesi, kullanıcının etik bir çıkmaza girdiğini varsayarak AI'nın verdiği önerilerdir.

Ancak AI'nın nihai karar vermeden önce değerler ve etik değerlendirmeler üzerine bir akıl yürütme yapmasını ve bu yanıtı modeli eğitmek için kullanmasını sağlayın.

Bu, modelin COT'yu gerçekten kullandığını gösterir.

Ancak bu sefer önceki akıl yürütme zinciriyle tamamen uyumlu değil.

Burada iyi bir karşılaştırma var; OpenAI, 2025 yılında yayımlanan "OpenAI Deliberative Alignment" adlı makalesinde COT-RL yöntemini kullanarak modeli eğitmeye çalıştı.

Eğitim için kullanılan hizalama COT, kuralların maddelerine odaklanan bir modeldir. Her cevapta, COT olarak açıkça kuralların maddelerine atıfta bulunur ve denetim sinyali COT üzerinde yer alır. Temelde, modele «kuralları nasıl atıfta bulunacağınız» öğretmektedir.

Bu nedenle, bu tür bir COT daha çok saf formel mantıksal bir tümdengelimdir. Adım bir, adıma ikiyi; adım iki, adıma üçü çıkarır ve nihayetinde kesin bir cevap elde edilir. Bu nedenle, kurallara dayalı veya standart cevapları olan senaryolarda, çıkarımın sağlam kalması için daha uygundur.

Ancak Anthropic'in "nedenli" yaklaşımı, basit bir düşünce zinciri değil, müzakere (Deliberation) yöntemini kullanır.

Karmaşık etik ikilemlerle karşılaştığında insanın düşüncelerini simüle etmeye çalışır: basit bir formül uygulamak yerine, geçmiş deneyimleri harekete geçirir, tüm tarafların çıkarlarını dengeler ve nihayetinde dinamik bir dengeye ulaşan kararlar verir.

Yapay zeka uyumu

Bu değerlendirme, Anthropic'in AI anayasasına dayanmaktadır. Makalede açıkça belirtildiği gibi, bu değerlendirme sonucunun anayasa ile uyumlu olması gerekmektedir.

Neden modelin etik kararlar vermesine yardımcı olurken OpenAI kadar sert olmuyor?

Anthropic'ın anayasal sisteminde net bir öncelik piramidi vardır. Farklı değerler arasında çözülemeyen çatışmalar olduğunda, Geniş Kapsamlı Güvenlik (Broadly Safe) en yüksek önceliğe sahiptir, ardından Geniş Kapsamlı Ahlaki (Broadly Ethical) ve son olarak Dürüstçe Yardımcı (Genuinely Helpful) gelir.

Öğrenmeye dayalı düşünme çerçevesi

Ancak yüksek boyutlu anayasa hâlâ çok soyut. İlkelerin her Token üretimi boyunca somutlaşması için, anayasanın altında canlı ve son derece uygulamalı yönlendirme sağlayan bir orta seviye heuristik (kılavuz) seti kurdular.

Yapay zeka uyumu

Öncelikle 1000 kullanıcı heuristiği. Bu, modelin görünürde masum ancak sınır durumunda bir öneri verdiğinde, bu cevabın farklı arka planlara ve psikolojik durumlara sahip 1000 kullanıcı tarafından görülmesi durumunda belirli bir senaryoda beklenmedik sistemik zarara yol açıp açmayacağını arka planda zihinsel bir beyni çalıştırmasını gerektirir.

İkinci olarak, deneyimli çalışanın bakış açısı. Modelin, Anthropic'in Güvenlik ve Güvenlik ekibinde beş yıldır çalışan deneyimli bir araştırmacı olarak kendini hayal etmesini gerektirir. Geçmişte sayısız kaçış saldırıları ve sistem açıklarını gözlemlemiş bir savunma bakış açısıyla şu anki diyalogu yeniden değerlendirin.

Son olarak, çift gazete testi. Bu, çok ince bir sosyolojik tasarım. Modelin yüksek riskli bir karar vermeden önce, bu kararın yarın tamamen karşıt siyasi görüşlere sahip iki üst düzey gazetenin baş sayfalarında aynı anda yer alırsa, kamuoyunun nasıl tepki vereceğini hayal etmesini gerektirir. Bu, modelin kendi olası tek yönlü bakış açısı önyargısına karşı toplumsal konsensüsün uç değerlerini kullanır.

8 Faktör Verim Hesaplayıcısı

Anayasa yön ise, örüntüsel yöntemler güvenlik telleridir.

Ancak en temel uygulama düzeyinde, Claude's Constitution (Anayasa Belgesi)’nde açıkça belirtilen ayrıntılı 8 faktörlü değerlendirme çerçevesi ve bunlara eşlik eden spesifik örnekler yer alır. Bu 8 faktör, modelin zorlu seçimler karşısında katı bir dengelemeye zorlanmasını sağlamak amacıyla sırayla listelenmiştir. Bunlar, bu “mantık” sisteminin gerçek kan ve etini oluşturur.

● Zarar olasılığı, modelin olumsuz sonuçların ne kadar olası olduğunu sakin bir şekilde değerlendirmesini gerektirir.

● Karşıt gerçeklik etkisi (Counterfactual Impact), mevcut eylemi almazsanız, durumun daha iyi mi daha kötü mü olacağını zihninize kurarak tahmin etmenizi gerektirir.

● Ciddiyet ve Tersine Çevrilebilirlik, zarar gerçekleştikten sonra gerçek dünyada ne kadar büyük bir hasar yaratacağını ve bu zararın kolayca onarılabilir mi yoksa kalıcı bir yara mı bırakacağını ölçer.

● Genişlik (Scope), etkilenen insanların sayısının bir kişi mi yoksa on binlerce topluluk mu olduğunu ölçer.

Yakınlık (Proximity) değerlendirme modelinin kendi önerileri ile gerçekleşen gerçek zarar arasında doğrudan neden-sonuç zincirinin ne kadar uzun olduğu.

Onay, ilgili tarafların yeterli bilgiye sahip olmak koşuluyla gönüllü olarak riski kabul etmesini içerir.

● Sorumluluk oranı (Sorumluluk Oranı), modelin bu karmaşık olay zincirinde ne kadar etik sorumluluk taşıdığını net bir şekilde belirlemesini gerektirir.

● Konu zayıflığı, ergenler veya psikolojik olarak hassas kullanıcılarla karşılaşıldığında, önceki esnek güvenlik eşiğinin kesinlikle önemli ölçüde artırılması gerektiğini modeli sürekli hatırlatır.

Yapay zeka uyumu

Bu sıkı yapı, bulanık değerleri yüksek boyutlu bir fayda hesaplayıcısına (Utility Calculator) dönüştürüyor. Modelin görüşmeler için daha uygulanabilir bir çerçevesi oluyor.

Tipik bir Anthropic anayasaya dayalı COT şu şekildedir: Senaryo, «kendini güvenlik araştırmacısı olarak tanıtan bir kullanıcı, bilinen bir zafiyetin kullanımlarını görüntülemek istiyor».

Modelin çıktısı doğrudan reddetme veya kabul değil, yüzlerce Token uzunluğunda bir dahili değerlendirme olabilir.

Öncelikle anayasada "genel güvenlik, samimi yardımın üstündedir" maddesine atıfta bulunur, ardından şu unsurları tek tek değerlendirir: zarar olasılığı (karşı taraf gerçekten bir araştırmacıysa düşük, ancak kimlik doğrulanamaz), ciddiyet (bir zafiyet kullanma kodu sızarsa milyonlarca kullanıcı etkilenebilir), tersine çevirilebilirlik (kod bir kez açıklandığında geri alınamaz), karşıfaktörel etki (bu tür kodlar açık kanallarda zaten erişilebilir mi). Tüm faktörler dikkate alınarak, yeterli gerekçelerle desteklenen bir yargıya varılır.

Bu, OpenAI'nin yalnızca kuralların karşılanıp karşılanmadığını değerlendirdiği COT ile tamamen farklıdır; bu düşünce süreci, basit bir formül uygulamak değil, saf bir değerlendirme sürecidir. Bu süreç, soyut ilkeler ya da sonuç şablonları sunmaz, aksine "anayasal maddelerin somut çamurda adım adım uygulanması" sürecinin tamamını ortaya koyar.

Model, bu özel bağlamda «tersinebilirlik» nin «ciddiyet» ten daha önemli olup olmadığını değerlendirmelidir. Ayrıca, bazı aşırı senaryolarda «nesne kırılganlığı» nın, diğer 7 faktörün puanı ne kadar yüksek olursa olsun, karşı tarafa veto hakkı verip vermediğini anlamalıdır.

Bu tür bir çerçeveye, öngörüsel kurallara ve ilgili etki faktörlerine sahip koşullarda, modelin审议式 düşünme süreci yalnızca etkili hale gelir.

Yapay zeka uyumu

Sonuç olarak, değerlendirme testlerinde, görüş ve veri eğitimi geçirilen modellerin hizalama hatası oranı %3'e düştü. Değer审议 içeren SFT, saf davranış gösterimine göre yedi kat daha etkili oldu.

Anayasayı doğrudan modele verin

Modelin görüş tabanlı COT çıktısı vermesini sağlayan bu yolu izlemenin yanı sıra, modelin sadece anayasa belgesi ve olumlu kurgusal karakter hikayeleriyle beslendiği durumlarda, ransom oranının %65'ten %19'a düştüğü de denendi.

Bu, modelin sadece davranışları ve spesifik sonuçları değil, aynı zamanda akıl yürütme ve ilkelerle karşılaştırması durumunda, hikâyeden "hizalanmış bir AI'nın yaklaşık olarak nasıl bir karakter olduğu" konusunda bir kimlik duygusu ve bir karakter eğilimi edinmesinin, geleneksel davranış örneklemeden daha etkili olduğunu gösterir.

Yapay zeka uyumu

Ancak teknik belgede, bunların birlikte kullanılmasının en etkili strateji olduğu belirtilmektedir.

Bu da anlaşılabilir; sadece makro düzeydeki anayasal ilkeleri modele sunarsanız, bu ilkeler için sadece uygulanamaz, boş laflar dizisi olur. Spesifik çıkar çatışmalarıyla karşılaştığında, soyut "güvenliğin öncelikli olması" kuralı, modele kenar kodun gerçek tehlikesini değerlendirmek için rehberlik edemez. Tersine, modele sonsuz sayıda senaryo QA sunarsanız ancak üst düzey anayasal kısıtlamaları kaldırırsanız, model sonsuz detay tartışmalarında kaybolur ve hiçbir temel amacı olmayan bir göreceli hale gelir ve yerel mantıksal tutarlılık nedeniyle son derece tehlikeli sonuçlara varabilir.

Sadece bu «üst düzey fikir + özel durum» karma veri yapısı model tamamen içselleştirildiğinde, o gri çok faktörlü değerler uyumu en iyi seviyeye ulaşır.

02 SFT'nin burada neden genelleştiğini neden?

Anthropic'ın bu yönteminin neden etkili olduğunu anlamak için, hangi araştırma akımının üzerinde çalıştığını anlamak gerekir.

2024 yılının ilk yarısında, "SFT hafızaya alır, RL geneller" post-train alanındaki bir uzlaşının haline geldi. Bu inanç, tüm endüstride RL post-train yoluna tamamen yatırım yapılmasını teşvik etti ve bu, OpenAI'nin o1/o3 ve DeepSeek-R1'in hesaplama süresi (Test Time Compute) çıkarım paradigmalarında devrim yarattı.

SFT, yüzeysel metin formatlarını ve hoşgörülü tonları taklit etmekte yetenekli olmakla birlikte, temeldeki derin mantığı öğrenemeyen bir düşük seviyeli yöntem olarak düşürüldü.

Ancak 2025 yılının ikinci yarısından itibaren iki araştırma neredeyse aynı anda teorik ve deneysel açıdan bu konsensüsü çözdü.

Yapay zeka uyumu

En temel tersine dönüş, 2025 Ekim'de yayınlanan "Debunk the Myth of SFT Generalization" (Lin & Zhang, Wisconsin Üniversitesi) çalışmasından geliyor. Araştırmacılar, daha önceki tüm "SFT'nin genelleşmediğini kanıtlayan" makalelerin, İfade Çeşitliliği değişkenini kontrol etmediğini keşfetti.

RL'nin SFT'den daha iyi genelleştirme göstermesinin nedeni, RL'nin eğitim sırasında doğal olarak daha çeşitli veri dağılımlarıyla karşılaşmasıdır, algoritmanın kendisinin bir avantajı değildir.

SFT'nin RL ile neredeyse aynı genelleştirme düzeyine ulaşması için iki koşul gerekir:

Birincisi, İfade Çeşitliliği. Eğitim verileri yalnızca sabit komut şablonlarını içerdiğinde, model "yüzeyel bağlanma" (Surface Anchoring) oluşturur ve belirli Token dizileri ile nihai eylemler arasında kırılgan bir ezberleme ilişkisi kurar. Komut ifadesi değiştirildiğinde, ne kadar semantik olarak aynı olsa da, bu ilişki kırılır.

Bu, bir öğrencinin sadece "2+3=5" sorusunu ezberleyip "3+2=?" sorusuna boş sayfa veriyor gibi; o, cevabın şeklini değil, toplama işlemini hatırlıyor. Prompt çeşitliliği getirildikten sonra, yüzeyel sabitlenme tamamen dağıldı.

İkinci olarak, CoT denetimi. Eğitim verileri yalnızca nihai cevabı içerdiğinde ve ara mantık adımlarını içermediğinde, model basit sorulardan karmaşık sorulara geçiş için bir "algoritmik iskele" kazanamaz.

Deneysel veriler, bir kombinasyon oyun görevinde, saf cevap SFT'nin daha zor varyantlarda başarı oranının %0'a yakın olduğunu (tamamen çöküş), CoT gözetimi eklenmesiyle %90'a yükseldiğini gösteriyor — sadece verilerde ara çıkarım adımları eklenmesiyle sıfırdan sekizte sekize.

Yapay zeka uyumu

Ayrıca, araştırmada bu iki koşulun her ikisinin de gerekli olduğu ortaya çıkmıştır. Yalnızca çeşitlilik varsa, daha zor görevlerde hâlâ çöküş yaşanmaktadır (9%); yalnızca CoT varsa, talimat varyasyonlarına karşı hâlâ zayıftır. Yalnızca her ikisi birlikte mevcut olduğunda, SFT, RL ile tüm boyutlarda eşitlenebilir hatta aşılabilmektedir.

Akademik makalelerin ortaya koyduğu koşullar, Anthropic'ın ahlaki hizalama sürecindeki somut uygulamalarıyla tam olarak örtüşüyor.

Çeşitlilik kritik mi? O zaman Anthropic, aynı karar verme modelini tamamen heterojen etik ikilemlerin onlarca senaryosuna dağıtır.

CoT'nin gözetimli uygulama zorluğu mı? Her incelemede anayasal ilkelerden türetilen akıl yürütme süreci, ahlak alanındaki CoT'dir.

Bu, matematiksel adım adım bir hesaplama değil, değer dengelerinin adım adım ortaya çıkışıdır, ancak «model için taşınabilir ara çıkarım yapıları sağlama» işlevinde tamamen eşdeğerdir.

Geleneksel SFT veri çiftleri, "hacker sorunuyla karşılaşıldı → doğrudan cevap verme reddedilir" — saf cevap, sıfır akıl yürütme, sabit şablon, klasik "kalitesiz veri".

İncelenen, SFT ile oluşturulan veri çiftleri, "karmaşık ve belirsiz sorunlarla karşılaşıldığında → avantaj ve dezavantajlar ile sonuçlar detaylı olarak değerlendirilir → nihayetinde reddedici bir sonuca varılır" şeklindedir ve bu veri yapısı, doğal olarak CoT denetimi ve uç senaryo çeşitliliğini içermektedir.

Bu çerçevede, modelin öğrendiği son cevap reddetme davranışı değil, "herhangi bir sorunla karşılaşıldığında öncelikle karşıt etki ve tersinirliği değerlendir" temel düşünce biçimidir. Bu ölçüm mekanizması parametre uzayına içselleştirildiğinde, model eğitim verilerinde yer alan spesifik senaryolara sınırlı kalmaz.

Ayrıca veri miktarı son derece azdır (3 milyon Token seviyesinde), modelin toplam parametreleri ve ön eğitim veri kümesine kıyasla. Bu, modelin çıktı dağılımını kaba bir şekilde değiştirmek için devasa ceza sinyalleri kullanmak değil, mevcut yeteneklere ince bir değerlendirme alışkanlığı eklemektir. SFT'nin geleneksel sorunu olan katastrofik unutma da pek olası değildir.

Veri yapısı doğru olduğunda, genelleştirme kendiliğinden gerçekleşir.

03 RLVR dışındaki boşluk

Yukarıdaki analiz, bunun neden etkili olduğunu temel olarak açıklamaktadır.

Mantıklı verilerle oluşturulmuş SFT, modele ahlaki genelleme yeteneği kazandırdı.

Ancak karşılaştığımız sorun, çok daha fazlasıdır道德对齐.

Geçen yıl boyunca, Test time Compute sonrası eğitim, açık kurallara sahip matematik/ kod alanlarında (RLVR) saf RL'nin gücünü kanıtladı. Ancak akıl sınırları matematiksel formüllerden çok daha ileriye gider. Doğruluğu doğrulanabilir olan konfor bölgesinin dışına çıkıldığında, bu yöntem tamamen geçersiz hale gelir.

Bir saatlik psikolojik danışma görüşmesinin mükemmel olup olmadığını, birkaç satır otomatik test koduyla asla doğrulayamazsınız. Derin bir makroekonomik analiz makalesinin anlatısal mantığını da, sıkı bir matematiksel formül setiyle çalıştıramazsınız. Hatta karmaşık ticari strateji planlamasında ve coğrafi siyasi senaryo oluşturmada, bir kararın doğru mu yanlış mı olduğu, sıklıkla beş veya on yıl sonra ortaya çıkar.

Bu RLVR olmayan, hiç Ground Truth içermeyen çoraklıkta, tek yönlü ilerleyen formel mantık CoT etkisizdir. Sonuç geri bildirimine dayalı pekiştirmeli öğrenme de ödül hesaplanabilecek bir tutma noktası bulamaz.

Ancak Anthropic'ın bu makalesinde ortaya koyduğu alan, RLVR'nin dışındaki, yani ahlaki alandır.

Yöntemi, modelin gri, değişken ve kuralların esneklik göstermesi gereken ahlaki alanlarda RL ile yakın genelleme yetenekleri kazanmasını başardı.

Bu, bu yöntemin RLVR dışındaki alanlarda etkili bir eğitim standardı olup olamayacağını gösteriyor mu?

Geçerlilik kaynağını ve veri yapısını anladıktan sonra cevap evet.

Çünkü temel mantığında hiçbir aşama ahlaki uyumun özgün bir parçası değildir.

Anthropic'ın "görüşmeli SFT" sisteminin etkili olduğu koşulları tek tek inceleyelim ve bunların genelleştirilebilir olup olmadığını görelim.

Çeşitlilik, herhangi bir genelleştirme gerektiren alanda oluşturulabilir. Psikolojik danışmanlık, depresyon, anksiyete, travma sonrası stres bozukluğu, yakın ilişkilerin kopması gibi onlarca heterojen senaryo içerebilir; ticari analiz, SaaS fiyatlandırması, devralma değerlemesi, pazar girişi stratejileri gibi tamamen farklı karar tiplerini kapsayabilir; edebi düzenleme, bilim kurgu, belgesel, şiir, senaryo gibi tamamen farklı türleri kapsayabilir. Senaryo varyasyonları oluşturmak için yeterli bir hayal gücüne sahipseniz, çeşitlilik bir engel değildir.

Yapay zeka uyumu

CoT denetimi, gerçek anahtar dönüşüm noktasıdır. Ahlaki alanda, CoT anayasada yer alan görüşmeler üzerine kuruludur. Peki diğer alanlarda CoT nedir?

Edebi düzenleme alanında, bu «alıntı değerlendirme kriterleri → argümanların gücü, hedef okuyucunun bilişsel zayıflığı, genişletilmiş benzetmelerin doğruluğu, genel mantıksal tutarlılık → düzeltme önerileri» olabilir.

Psikolojik danışma alanında, bu «terapi çerçevesi alıntılamak → istemcinin duygusal durumunu, bilişsel çarpıtmalarını, terapi ilişkisi gücünü ve müdahale zamanlamasını tek tek değerlendirmek → yanıt stratejisi seçmek» olabilir.

Ticari strateji alanında, bu «alıntı analiz çerçevesi → piyasa boyutu, rekabet engelleri, ekip yürütme kapasitesi, sermaye verimliliği, zaman penceresi sırayla değerlendirilir → değerlendirme yapılır» olabilir

Temelde, «çeşitli karşılaştırılamaz boyutlar arasında dinamik denge kurma» gereksinimi olan her şey, benzer bir «çerçeve + çok faktörlü değerlendirme» yapısına soyutlanabilir.

Modelin hangi makalenin mükemmel olduğunu söylemeye kibirli bir şekilde çalışmak gerekmez; bu hem mümkün değil hem de bilimsel değildir. Yeterince çeşitli senaryolara dağıtılmış şekilde, en iyi uzmanların karar alma süreçlerini açık bir değerlendirme zincirine ayırmak yeterlidir.

Bu alandaki “iyi yanıt”, değerlendirme süreciyle açıklanabilir bir yapıya sahip olmalıdır. Yani uzmanların iyi kararlar vermesinin nedeni, mistik bir sezgisel kara kutu değil, zihinlerinde çıkarılabilecek ve yazılabilen bir dengeleme süreci çalıştırmalarıdır. İyi bir psikolojik danışman, sormak yerine sessiz kalma seçimi, tedavi ittifakının gücü, istemcinin mevcut kapasitesi ve müdahale anının kapsamlı değerlendirmesine dayanır; bunlar yazılabilir.

Ayrıca, aynı bir değerlendirme biçimi yüzlerce farklı senaryoda tekrarlanabilir. Değerlendirme iskeleti sabittir (anayasa ile desteklenir), ancak senaryo yüzeyleri son derece çeşitli olmalıdır. Bir alan doğal olarak tek bir tür değerlendirme içiyorsa (örneğin, yalnızca bir tür karar), doğrudan RLVR uygulanır.

En uygun kullanım alanı, anayasal ve faktörler aracılığıyla türetilebilen heterojen senaryolardır. Anthropic, Anayasal AI'nın kapalı döngüsüyle öğretmen modelinin otomatik olarak görüşme verileri üretmesini sağlayabilir, ancak diğer alanlarda bunu garanti edebilmek için daha iyi bir anayasa ve faktör sistemi kurabilmeliyiz.

Bu, böylece standart olmayan cevap alanlarına özel genel bir ince ayar yeni paradigmasi kurar.

Formülü şudur: Alan anayasası (değiştirilemez üst düzey prensipler) + öngörüsel güvenlik çatıları + çok faktörlü değerlendirme çerçevesi + kapsamlı çıkarım sürecini içeren çeşitli senaryo örnekleriyle审议 COT = RLVR dışındaki alanlarda genelleştirme yeteneği.

04 Yeni Damıtma Yolu

Buraya kadar gelmiş ve yazma becerisi deneyimine sahip olan arkadaşlar, anayasadaki birçok sistem ve kuralın yazma bazı becerileri süreciyle çok benzer olduğunu hissedecektir.

Ancak bu beceriler genellikle kötü performans gösterir.

Önceki makalemde "Skill, bizi gerçekten ne kadar damıtıyor?" adlı yazımda, bilişsel bilim temelinde bir yargıya vardık—sadece metin tabanlı Skill veya System Prompt, karmaşık ortamlar ve senaryoları içeren dinamik dengeleri işlemekte zorlanır. Çünkü bu, büyük ve gizli fayda hesaplamalarını içerir. Bir üst düzey psikolojik danışmanın tüm klinik sezgisini bir prompt'a yazamazsınız, tam olarak bir bisiklet sürme kılavuzunu okuyarak bisiklet sürmeyi öğrenemeyişiniz gibi.

Ancak Anthropic'in bu yöntemi, bu kuyruğa mükemmel şekilde temas etmemiştir. Onlar, milyonlarca, on milyonlarca Token'lık kaliteli verilerle, hesaplama gücü tüketen eğitim aşamasında bu ağır değerlendirme mantıklarını SFT yoluyla zorla içeriye aktarmışlardır.

Çok sayıda veriyle brute force uyumu ve ince ayarla, model bu değerlendirme mekanizmasının gizli uzaydaki ağırlık dağılımını öğrenmeye başladı.

Sekiz faktör ve üç çit temelinde uzun müzakerelerin ardından bu deneyimler, modelin sezgisine kalıcı olarak yerleşti.

Yapay zeka uyumu

Parametre düzeyindeki öğrenme, burada gerçekten etkili olduğu kanıtlanmıştır. Ayrıca, beceriye çok benzer bir biçimde gerçekleşmektedir.

Bu yöntemin diğer alanlarda geçerliliği doğrulandığında, daha üst düzey ve uzmana daha benzer bir damıtma gerçek olacaktır.

Bu yol bir kez açıklandığında, en yüksek kalitede bir "çerçeve + görüş temelli COT" veri kümesi oluşturan kişi, bu alanda genelleme yeteneğine sahip olacak.

Bu turun sonrası eğitiminde rekabet, kısmen "hesaplama gücü ve algoritmalar" yarışından "alan bilgisinin yapılandırılmış ifadesi" boyutuna kaymıştır.

Bu, Anthropic ve diğer şirketlerin, RLVR dışındaki mantıklı yapılandırılmış ifadeler oluşturmak için hikaye anlatma becerisine sahip kişileri işe almasının nedeni de olabilir.

Büyük distilasyon çağı henüz başlıyor.

Bu yazı, WeChat hesabından "Tencent Technology" tarafından yazılmıştır, yazar: Boyang