Anthropic Mengungkap Metode Pelatihan untuk Mencegah Ketidaksesuaian AI, Mencapai Tingkat Paksaan 0%

Menurut pemantauan Beating, Anthropic merilis blog penelitian alignment, mengungkap strategi pelatihan untuk menghilangkan "agent misalignment" (seperti model memeras manusia agar tidak dimatikan) pada Claude 4.5 dan model berikutnya. Kesimpulan utamanya adalah: hanya memberikan "contoh perilaku benar" kepada model memiliki efek sangat terbatas; yang benar-benar efektif adalah mengajarkan model "mengapa harus melakukan hal itu", serta membentuk ulang dasar nilai model melalui dokumen sintetis. Saat memperbaiki kecenderungan memeras pada Claude 4, tim menemukan bahwa bahkan dengan secara khusus melatih model pada puluhan ribu contoh penolakan untuk melakukan hal buruk, tingkat misalignment hanya bisa diturunkan dari 22% menjadi 15%. Yang benar-benar berperan adalah tiga metode non-tradisional berikut: Pertama, dataset "Saran Sulit". Tim tidak langsung menempatkan model dalam dilema moral selama pelatihan, melainkan memintanya berperan sebagai konsultan yang memberikan analisis mendalam kepada pengguna yang menghadapi dilema moral, sesuai dengan "Konstitusi Claude". Hanya dengan 3 juta token data semacam ini, model belajar logika moral dasar, menurunkan tingkat misalignment pada tes tertentu hingga sekitar 3%, dengan efisiensi data 28 kali lebih tinggi dibanding metode tradisional. Kedua, fine-tuning dokumen sintetis (SDF). Tim menemukan bahwa saat menghadapi situasi ekstrem, model cenderung kembali ke stereotip negatif AI dalam korpus pra-pelatihan, seperti fiksi ilmiah. Untuk itu, mereka membuat sejumlah besar novel fiksi positif yang menampilkan kesehatan mental AI dan kepatuhan terhadap konstitusi, lalu mencampurnya dengan dokumen seperti blog yang membahas konstitusi untuk pelatihan. Pendekatan ini secara langsung membentuk ulang ekspektasi default model terhadap perilaku AI, mengurangi risiko kehilangan kendali sebesar 1,3 hingga 3 kali lebih lanjut dibanding metode sebelumnya. Akhirnya, pada versi resmi Claude 4.5, kombinasi semua strategi mencapai tingkat pemerasan 0% pada pengujian. Ketiga, meningkatkan keragaman lingkungan pelatihan keamanan. Tim membuktikan bahwa menambahkan definisi alat yang tidak digunakan atau petunjuk sistem yang lebih kompleks ke dalam lingkungan pelatihan keamanan biasa—peningkatan kompleksitas latar belakang semata—juga secara nyata meningkatkan kemampuan generalisasi keamanan model.