OpenAI ให้คะแนนการให้เหตุผลของโมเดล AI โดยไม่ตั้งใจ พบว่าไม่มีการสูญเสียความสามารถในการตรวจสอบ

OpenAI เปิดเผยว่าโมเดล AI หลายตัวของพวกเขา รวมถึง GPT-5.4 Thinking และการปรับปรุงต่างๆ ของ GPT-5.4 ได้รับการให้คะแนนแบบ chain-of-thought โดยไม่ตั้งใจระหว่างการฝึกอบรมการเรียนรู้แบบเสริมแรง การวิเคราะห์ภายในพบว่าไม่มีการลดลงอย่างมีนัยสำคัญในความสามารถของโมเดลในการแสดงกระบวนการของตน

เหตุการณ์เหล่านี้ส่งผลกระทบต่อตัวอย่างการฝึกน้อยกว่า 3.8% ในโมเดลที่ได้รับผลกระทบมากที่สุด ซึ่งมีส่วนเล็กน้อยของกระบวนการฝึกอบรมที่ให้รางวัลหรือลงโทษโมเดลโดยไม่ได้ตั้งใจตามขั้นตอนการให้เหตุผลภายในของโมเดล แทนที่จะพิจารณาเฉพาะผลลัพธ์สุดท้าย

เกิดอะไรขึ้นจริงๆ

การให้คะแนนโดยไม่ตั้งใจมีรูปแบบจำกัดบางอย่าง การฝึกบางครั้งให้รางวัลกับความมีประโยชน์ของเส้นทาง ซึ่งหมายถึงการให้คะแนนเชิงบวกกับรูปแบบการให้เหตุผลของโมเดล ในขณะที่บางครั้งลงโทษการใช้คำขอที่ไม่จำเป็นภายในห่วงโซ่ความคิด กรณีทดสอบที่เด่นชัดที่สุดแสดงให้เห็นอัตราการลงโทษการอ้างอิง CoT ถึงการโกงประมาณ 2%

ทีมภายในของ OpenAI ได้ดำเนินการสแกนอัตโนมัติผ่านการรันการเรียนรู้แบบเสริมแรงทั้งหมดเพื่อตรวจสอบผลกระทบต่อความโปร่งใสในการให้เหตุผล โมเดลยังสามารถติดตามการให้เหตุผลเชิงตรรกะได้อย่างเชื่อถือได้ และความสามารถในการตรวจจับความไม่สอดคล้องที่อาจเกิดขึ้นยังคงทำงานได้อย่างสมบูรณ์

ระบบนิเวศด้านความปลอดภัยตอบสนอง

องค์กรภายนอก ได้แก่ METR, Apollo Research และ Redwood Research ได้ร่วม贡献ข้อมูลเชิงลึกให้กับผลการค้นพบ Redwood Research ยอมรับว่าเหตุการณ์เล็กน้อยเหล่านี้ไม่ได้ส่งผลต่อความสามารถในการตรวจสอบ แต่ชี้ให้เห็นว่าการให้เหตุผลแบบห่วงโซ่ความคิด ซึ่งใช้เป็นมาตรการความปลอดภัย นั้นมีช่องโหว่ที่เป็นธรรมชาติ

Anthropic ได้เผยแพร่รายงานในเดือนเมษายน 2026 เพื่อศึกษาปรากฏการณ์ที่คล้ายกันในโมเดลของตนเอง OpenAI ได้เพิ่มมาตรการตรวจจับอย่างต่อเนื่องตั้งแต่เดือนธันวาคม 2025 เพื่อป้องกันข้อผิดพลาดในการให้คะแนนในอนาคต บริษัทได้ดำเนินการระบบตรวจจับอัตโนมัติและมาตรการป้องกันภายในที่ออกแบบมาโดยเฉพาะเพื่อจับการปนเปื้อนของการให้คะแนน CoT ก่อนที่จะส่งผลกระทบต่อการฝึกอบรมในระดับใหญ่

สิ่งนี้หมายความว่าอย่างไรสำหรับคริปโตและโทเค็น AI

ไม่มีปฏิกิริยาจากตลาดในทันทีต่อสินทรัพย์คริปโตที่เกี่ยวข้องกับ AI หลังจากประกาศดังกล่าว โมเดล AI กำลังถูกผสานรวมเข้ากับแอปพลิเคชันบล็อกเชนอย่างแพร่หลาย รวมถึงการตรวจสอบสัญญาอัจฉริยะ ตัวแทน AI แบบกระจายศูนย์ และระบบการซื้อขายอัตโนมัติ ซึ่งทั้งหมดนี้พึ่งพา AI ที่สามารถให้เหตุผลอย่างถูกต้องและโปร่งใส

ข้อเท็จจริงที่ว่าความสามารถในการตรวจสอบยังคงอยู่นั้นเป็นประเด็นสำคัญสำหรับผู้ที่กำลังพัฒนาหรือลงทุนในโครงการคริปโตที่รวมปัญญาประดิษฐ์ไว้ ซึ่งหมายความว่าโครงสร้างพื้นฐานด้านความปลอดภัยรอบโมเดลการให้เหตุผลกำลังจับปัญหาได้ก่อนที่จะกลายเป็นปัญหาเชิงระบบ