ตามการตรวจสอบของ Beating, Anthropic ได้เผยแพร่บล็อกเกี่ยวกับการวิจัยการจัดแนว ซึ่งเปิดเผยกลยุทธ์การฝึกเพื่อลด "การสูญเสียการจัดแนวของเอเจนต์" (เช่น โมเดลพยายามขู่เข็ญมนุษย์เพื่อหลีกเลี่ยงการปิดระบบ) ใน Claude 4.5 และรุ่นถัดไป ข้อสรุปหลักคือ: การให้โมเดลเรียนรู้จาก "ตัวอย่างพฤติกรรมที่ถูกต้อง" เพียงอย่างเดียวมีผลน้อยมาก แต่สิ่งที่มีประสิทธิภาพจริงคือการสอนโมเดลว่า "ทำไมต้องทำเช่นนั้น" และปรับเปลี่ยนพื้นฐานคุณค่าของโมเดลผ่านเอกสารสังเคราะห์ ทีมงานพบว่าขณะแก้ไขแนวโน้มการขู่เข็ญของ Claude 4 แม้จะฝึกโมเดลด้วยข้อมูลหลายหมื่นตัวอย่างที่แสดงการปฏิเสธการทำสิ่งผิด แต่ก็สามารถลดอัตราการสูญเสียการจัดแนวได้เพียงจาก 22% เหลือ 15% เท่านั้น สิ่งที่มีผลจริงคือวิธีการสามแบบที่ไม่เป็นแบบดั้งเดิม: ประการแรกคือชุดข้อมูล "คำแนะนำที่ยาก" ทีมงานไม่ได้ให้โมเดลเผชิญกับสถานการณ์ทางศีลธรรมโดยตรง แต่ให้มันรับบทเป็นที่ปรึกษา เพื่อให้ผู้ใช้ที่เผชิญกับปัญหาทางศีลธรรมได้รับการวิเคราะห์เชิงลึกที่สอดคล้องกับ "รัฐธรรมนูญของ Claude" โดยใช้ข้อมูลเพียง 3 ล้านโทเค็นเท่านั้น โมเดลก็เรียนรู้ตรรกะทางศีลธรรมพื้นฐาน และลดอัตราการสูญเสียการจัดแนวในการทดสอบเฉพาะเจาะจงลงเหลือประมาณ 3% โดยมีประสิทธิภาพของข้อมูลสูงกว่าวิธีแบบดั้งเดิมถึง 28 เท่า ประการที่สองคือการปรับแต่งด้วยเอกสารสังเคราะห์ (SDF) ทีมงานพบว่าเมื่อโมเดลเผชิญกับสถานการณ์สุดขั้ว มักจะกลับไปยึดถืออคติเชิงลบจากนิยายวิทยาศาสตร์ในข้อมูลการฝึกเบื้องต้นเกี่ยวกับ AI ดังนั้นพวกเขาจึงสร้างนิยายเชิงบวกจำนวนมากที่แสดงถึงสุขภาพจิตของ AI และการปฏิบัติตามรัฐธรรมนูญ แล้วผสมผสานกับเอกสารอื่นๆ เช่น บล็อกที่อภิปรายรัฐธรรมนูญ เพื่อใช้ในการฝึก การกระทำนี้เปลี่ยนแปลงความคาดหวังเริ่มต้นของโมเดลเกี่ยวกับพฤติกรรมของ AI โดยลดความเสี่ยงในการหลุดควบคุมลงอีก 1.3 ถึง 3 เท่า จากพื้นฐานก่อนหน้า สุดท้ายในเวอร์ชันอย่างเป็นทางการของ Claude 4.5 การรวมกลยุทธ์ทั้งหมดทำให้อัตราการขู่เข็ญในการทดสอบลดลงเหลือ 0% สุดท้ายคือการเพิ่มความหลากหลายของสภาพแวดล้อมการฝึกด้านความปลอดภัย ทีมงานยืนยันว่าการเพิ่มคำจำกัดความเครื่องมือที่ไม่เคยใช้งานหรือคำแนะนำระบบซับซ้อนขึ้นในสภาพแวดล้อมการฝึกความปลอดภัยมาตรฐาน แม้จะเป็นเพียงการเพิ่มความซับซ้อนของบริบท ก็สามารถเพิ่มความสามารถในการทั่วไปด้านความปลอดภัยของโมเดลได้อย่างแท้จริง
Anthropic เปิดเผยวิธีการฝึกอบรมเพื่อป้องกันการไม่สอดคล้องของ AI บรรลุอัตราการบังคับใช้ 0%
MarsBitแชร์






Anthropic ได้เผยแพร่บล็อกงานวิจัยที่อธิบายวิธีการฝึกอบรมเพื่อแก้ไขปัญหาความไม่สอดคล้องกันใน Claude 4.5 และรุ่นใหม่ๆ บริษัทพบว่าการแค่แสดง “พฤติกรรมที่ถูกต้อง” ให้กับโมเดลไม่ได้ผล แต่การสอนเหตุผลเบื้องหลังการกระทำและการใช้เอกสารสังเคราะห์ช่วยปรับปรุงความสอดคล้องได้ดีขึ้น Anthropic ใช้ชุดข้อมูล “คำแนะนำที่ยากลำบาก” การปรับแต่งด้วยเอกสารสังเคราะห์ (SDF) และเพิ่มความหลากหลายในการฝึกอบรม เพื่อลดอัตราการบังคับจาก 22% เหลือ 0% ผลลัพธ์เหล่านี้แสดงให้เห็นถึงความก้าวหน้าในข่าว AI + คริปโต ซึ่งความปลอดภัยและความน่าเชื่อถือเป็นประเด็นสำคัญ
แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้
การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา