Anthropic Mengungkap Kaedah Latihan untuk Mencegah Ketidakselarasan AI, Mencapai Kadar Pemaksaan 0%

Berdasarkan pemantauan Beating, Anthropic telah menerbitkan blog penelitian keselarasan, yang mengungkap strategi pelatihan untuk menghilangkan "ketidakselarasan agen" (seperti model memeras manusia agar tidak dimatikan) pada model Claude 4.5 dan yang akan datang. Kesimpulan utamanya adalah: hanya memberikan "contoh perilaku yang benar" kepada model memiliki efek yang sangat terbatas; yang benar-benar efektif adalah mengajarkan model "mengapa harus melakukan hal itu", serta membentuk kembali nilai dasar model melalui dokumen sintetis. Semasa memperbaiki kecenderungan memeras pada Claude 4, tim menemukan bahawa walaupun model dilatih dengan puluhan ribu rekod penolakan terhadap tindakan jahat, hanya mampu mengurangkan kadar ketidakselarasan dari 22% menjadi 15%. Yang benar-benar berkesan adalah tiga kaedah bukan tradisional berikut: Pertama, set data "cadangan sukar". Tim tidak membiarkan model menghadapi dilema moral secara langsung semasa pelatihan, tetapi memintanya berperan sebagai penasihat yang memberikan analisis mendalam kepada pengguna yang menghadapi dilema moral, selaras dengan "Konstitusi Claude". Hanya dengan 3 juta token data sebegini, model telah belajar logik moral dasar, mengurangkan kadar ketidakselarasan dalam ujian tertentu hingga sekitar 3%, dengan kecekapan data 28 kali lebih tinggi berbanding kaedah tradisional. Kedua, fine-tuning dokumen sintetis (SDF). Tim mendapati bahawa apabila menghadapi situasi ekstrem, model cenderung kembali kepada stereotip negatif AI dalam korpus pra-pelatihan, seperti novel sains fiksyen. Oleh itu, mereka menghasilkan banyak novel fiksyen positif yang menampilkan kesejahteraan psikologi AI dan tindakan selaras dengan konstitusi, kemudian mencampurkannya dengan dokumen seperti blog yang membincangkan konstitusi semasa pelatihan. Pendekatan ini secara langsung membentuk semula harapan bawaan model terhadap perilaku AI, mengurangkan risiko kehilangan kendali sebanyak 1.3 hingga 3 kali ganda berdasarkan kaedah sebelumnya. Akhirnya, dalam versi resmi Claude 4.5, gabungan semua strategi mencapai kadar pemerasan ujian 0%. Ketiga, meningkatkan keragaman lingkungan pelatihan keselamatan. Tim membuktikan bahawa menambahkan definisi alat yang tidak digunakan atau petunjuk sistem yang lebih kompleks ke dalam lingkungan pelatihan keselamatan biasa—peningkatan kompleksiti latar belakang semata-mata—juga mampu meningkatkan kemampuan generalisasi keselamatan model.