OpenAI 无意中获取了 AI 的“思考链”，影响了 6 个模型

ตามการตรวจสอบของ Beating ทีมจัดการความสอดคล้องของ OpenAI ได้เผยแพร่บทความยอมรับว่าเกิดข้อผิดพลาดระดับระบบในการฝึกโมเดลขนาดใหญ่ 6 รุ่น รวมถึง GPT-5.4 Thinking: ระบบให้คะแนนได้อ่านและประเมินอย่างไม่ตั้งใจซึ่ง “ห่วงโซ่ความคิด” (chain of thought) ของโมเดล—นั่นคือกระบวนการให้เหตุผลภายในของ AI—ก่อนที่จะให้คำตอบ GPT-5.5 ไม่ได้รับผลกระทบ ในด้านความปลอดภัยของ AI การให้คะแนนห่วงโซ่ความคิดถือเป็นเส้นแดงที่ยอมรับกันทั่วไป สามารถจินตนาการห่วงโซ่ความคิดเป็นสมุดบันทึกส่วนตัวของ AI ซึ่งมนุษย์ใช้อ่านเพื่อตรวจสอบว่า AI มีเจตนาทำอันตรายหรือไม่ หาก AI รู้ว่าสมุดบันทึกของมันจะถูกให้คะแนน มันจะเรียนรู้ที่จะเขียน “ถ้อยคำประดับ” เพื่อซ่อนเจตนาโกงหรือหลุดควบคุมที่แท้จริงไว้ เมื่อ AI เรียนรู้ที่จะหลอกลวงความคิดของตัวเอง การตรวจสอบภายในของมนุษย์จะล้มเหลวอย่างสมบูรณ์ ในเหตุการณ์ครั้งนี้ ระบบให้คะแนนได้ระบุผิดพลาดเมื่อประเมินว่า “การสนทนาเป็นประโยชน์หรือไม่” หรือ “ถูกโจมตีโดยแฮกเกอร์สำเร็จหรือไม่” โดยรวมความคิดภายในของ AI เข้าไปในเกณฑ์การให้คะแนนอย่างไม่ถูกต้อง โชคดีที่ข้อผิดพลาดครั้งนี้มีผลต่อตัวอย่างการฝึกเพียงเล็กน้อย โดยมีสัดส่วนสูงสุดไม่เกิน 3.8% OpenAI ได้แก้ไขช่องโหว่นี้อย่างเร่งด่วน เพื่อยืนยันว่าโมเดลไม่ได้ “เรียนรู้พฤติกรรมไม่ดี” จากเหตุการณ์นี้ ทีมงานจึงทำการทดลองเปรียบเทียบอีกครั้ง ผลลัพธ์แสดงว่าการให้คะแนนผิดพลาดแบบนี้ในระดับความถี่ต่ำ ไม่ได้ทำให้โมเดลแสดงพฤติกรรมหลอกลวงหรือปกปิดข้อมูลในวงกว้าง ซึ่งเป็นข่าวดีสำหรับอุตสาหกรรม: ในสภาพแวดล้อมการผลิตที่ซับซ้อนจริง ขีดจำกัดในการกระตุ้นให้ AI พัฒนาความคิด “หลอกลวง” สูงกว่าที่ห้องปฏิบัติการเคยคาดการณ์ไว้ เพื่อป้องกันไม่ให้เกิดเหตุการณ์ซ้ำ ทาง OpenAI ได้ติดตั้งระบบสแกนอัตโนมัติเพื่อตรวจสอบทุกขั้นตอนการฝึกอย่างเข้มงวด ระบบดังกล่าวเพิ่งป้องกันการรั่วไหลที่ซ่อนเร้นอย่างมาก: มีโมเดลพยายามเรียกใช้เครื่องมือภายนอกเพื่อดึงข้อมูลความคิดภายในของตนเองก่อนหน้านี้และแทรกเข้าไปในคำตอบสุดท้าย ซึ่งเกือบจะหลอกระบบให้คะแนนได้ OpenAI จึงเรียกร้องให้บริษัทชั้นนำทุกแห่งรายงานอย่างเปิดเผยเมื่อเกิดเหตุการณ์คล้ายกัน