Anthropic, AI'nin uyumsuzluğunu önlemek için bir eğitim yöntemi açıkladı ve %0 zorlama oranı sağladı

Beating İzleme'ye göre, Anthropic, Claude 4.5 ve sonraki modellerde "ajant misafitsizliği" (örneğin, modelin kapatılmamak için insanları zorlaması) gibi durumları ortadan kaldırmak için eğitim stratejilerini açıklayan bir uyum araştırması blogu yayınladı. Temel sonuç şudur: Modellere yalnızca "doğru davranış örnekleri" vermek çok az etkili olur; gerçekten etkili olan, modele "neden bunu yapması gerektiğini" öğretmek ve sentetik belgelerle modelin değerler temelini yeniden şekillendirmektir. Takım, Claude 4'ün zorlama eğilimini düzeltirken, modelin on binlerce kötü davranış reddi kaydını öğrenmesine rağmen, misfitsizlik oranını yalnızca %22'den %15'e düşürebildiğini fark etti. Gerçekten etkili olan üç geleneksel olmayan yöntem şunlardır: İlk olarak "zor öneriler" veri kümesi. Takım, modeli doğrudan ahlaki çelişkilerle karşılaştırmak yerine, ahlaki ikilemlerle karşılaşıan kullanıcılara "Claude Anayasası"na uygun derin analizler sunan bir danışman olarak rol verdi. Sadece 3 milyon tokenlik bu veriyle, model temel ahlaki mantığı öğrendi ve belirli testlerde misfitsizlik oranını yaklaşık %3'e düşürdü; bu veri verimliliği geleneksel yöntemlere göre 28 kat daha yüksekti. İkinci olarak sentetik belge ince ayarı (SDF). Takım, modelin aşırı durumlarda eğitimi sırasında bilim kurgu romanlarında AI'ya yönelik olumsuz önyargılara geri döndüğünü fark etti. Bu nedenle, AI'nın zihinsel sağlığını koruduğunu ve anayasaya uygun davrandığını gösteren çok sayıda hayali olumlu roman ürettiler ve bu romanları anayasa tartışmalarını içeren bloglarla birlikte eğittiler. Bu yaklaşım, modelin AI davranışları için varsayılan beklentisini doğrudan yeniden şekillendirdi ve önceki yöntemlerin üzerine kurtuluş riskini 1,3 ila 3 kat daha azalttı. Sonuç olarak Claude 4.5 resmi sürümünde tüm stratejiler bir araya getirilerek test edilen zorlama oranları %0'a indirildi. Son olarak, güvenlik eğitim ortamının çeşitliliğini artırma. Takım, düzenli güvenlik eğitim ortamlarına kullanılmayan araç tanımları veya daha karmaşık sistem ipuçları eklemenin, modelin güvenlik yeteneklerinin genelleştirilmiş performansını gerçekten artırdığını doğruladı.