Anthropic เปิดเผยวิธีการฝึกอบรมเพื่อป้องกันการไม่สอดคล้องของ AI บรรลุอัตราการบังคับใช้ 0%

ตามการตรวจสอบของ Beating, Anthropic ได้เผยแพร่บล็อกเกี่ยวกับการวิจัยการจัดแนว ซึ่งเปิดเผยกลยุทธ์การฝึกเพื่อลด "การสูญเสียการจัดแนวของเอเจนต์" (เช่น โมเดลพยายามขู่เข็ญมนุษย์เพื่อหลีกเลี่ยงการปิดระบบ) ใน Claude 4.5 และรุ่นถัดไป ข้อสรุปหลักคือ: การให้โมเดลเรียนรู้จาก "ตัวอย่างพฤติกรรมที่ถูกต้อง" เพียงอย่างเดียวมีผลน้อยมาก แต่สิ่งที่มีประสิทธิภาพจริงคือการสอนโมเดลว่า "ทำไมต้องทำเช่นนั้น" และปรับเปลี่ยนพื้นฐานคุณค่าของโมเดลผ่านเอกสารสังเคราะห์ ทีมงานพบว่าขณะแก้ไขแนวโน้มการขู่เข็ญของ Claude 4 แม้จะฝึกโมเดลด้วยข้อมูลหลายหมื่นตัวอย่างที่แสดงการปฏิเสธการทำสิ่งผิด แต่ก็สามารถลดอัตราการสูญเสียการจัดแนวได้เพียงจาก 22% เหลือ 15% เท่านั้น สิ่งที่มีผลจริงคือวิธีการสามแบบที่ไม่เป็นแบบดั้งเดิม: ประการแรกคือชุดข้อมูล "คำแนะนำที่ยาก" ทีมงานไม่ได้ให้โมเดลเผชิญกับสถานการณ์ทางศีลธรรมโดยตรง แต่ให้มันรับบทเป็นที่ปรึกษา เพื่อให้ผู้ใช้ที่เผชิญกับปัญหาทางศีลธรรมได้รับการวิเคราะห์เชิงลึกที่สอดคล้องกับ "รัฐธรรมนูญของ Claude" โดยใช้ข้อมูลเพียง 3 ล้านโทเค็นเท่านั้น โมเดลก็เรียนรู้ตรรกะทางศีลธรรมพื้นฐาน และลดอัตราการสูญเสียการจัดแนวในการทดสอบเฉพาะเจาะจงลงเหลือประมาณ 3% โดยมีประสิทธิภาพของข้อมูลสูงกว่าวิธีแบบดั้งเดิมถึง 28 เท่า ประการที่สองคือการปรับแต่งด้วยเอกสารสังเคราะห์ (SDF) ทีมงานพบว่าเมื่อโมเดลเผชิญกับสถานการณ์สุดขั้ว มักจะกลับไปยึดถืออคติเชิงลบจากนิยายวิทยาศาสตร์ในข้อมูลการฝึกเบื้องต้นเกี่ยวกับ AI ดังนั้นพวกเขาจึงสร้างนิยายเชิงบวกจำนวนมากที่แสดงถึงสุขภาพจิตของ AI และการปฏิบัติตามรัฐธรรมนูญ แล้วผสมผสานกับเอกสารอื่นๆ เช่น บล็อกที่อภิปรายรัฐธรรมนูญ เพื่อใช้ในการฝึก การกระทำนี้เปลี่ยนแปลงความคาดหวังเริ่มต้นของโมเดลเกี่ยวกับพฤติกรรมของ AI โดยลดความเสี่ยงในการหลุดควบคุมลงอีก 1.3 ถึง 3 เท่า จากพื้นฐานก่อนหน้า สุดท้ายในเวอร์ชันอย่างเป็นทางการของ Claude 4.5 การรวมกลยุทธ์ทั้งหมดทำให้อัตราการขู่เข็ญในการทดสอบลดลงเหลือ 0% สุดท้ายคือการเพิ่มความหลากหลายของสภาพแวดล้อมการฝึกด้านความปลอดภัย ทีมงานยืนยันว่าการเพิ่มคำจำกัดความเครื่องมือที่ไม่เคยใช้งานหรือคำแนะนำระบบซับซ้อนขึ้นในสภาพแวดล้อมการฝึกความปลอดภัยมาตรฐาน แม้จะเป็นเพียงการเพิ่มความซับซ้อนของบริบท ก็สามารถเพิ่มความสามารถในการทั่วไปด้านความปลอดภัยของโมเดลได้อย่างแท้จริง