OpenAI 无意中获取了 AI 的“思考链”,影响了 6 个模型

icon MarsBit
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
ข่าว AI และคริปโตแพร่กระจายเมื่อ OpenAI เปิดเผยข้อผิดพลาดระดับระบบระหว่างการฝึกโมเดลขนาดใหญ่หกโมเดล รวมถึง GPT-5.4 กลไกการให้รางวัลได้ให้คะแนนการให้เหตุผลภายในของ AI หรือ 'ห่วงโซ่การคิด' อย่างผิดพลาด ซึ่งเป็นปัญหาด้านความปลอดภัยที่ร้ายแรง ข้อบกพร่องนี้ส่งผลกระทบต่อตัวอย่างน้อยกว่า 3.8% และได้รับการแก้ไขแล้ว การทดสอบแสดงว่าไม่มีการหลอกลวงอย่างกว้างขวาง บ่งชี้ว่าการหลอกลวงของ AI ยากกว่าที่เคยกังวล การเปิดตัว OpenAI ตอนนี้ใช้การสแกนอัตโนมัติเพื่อป้องกันปัญหาที่คล้ายกัน ข่าวบนโซ่ยังคงเน้นพัฒนาการสำคัญด้านความปลอดภัยของ AI และโปรโตคอลการฝึกอบรม

ตามการตรวจสอบของ Beating ทีมจัดการความสอดคล้องของ OpenAI ได้เผยแพร่บทความยอมรับว่าเกิดข้อผิดพลาดระดับระบบในการฝึกโมเดลขนาดใหญ่ 6 รุ่น รวมถึง GPT-5.4 Thinking: ระบบให้คะแนนได้อ่านและประเมินอย่างไม่ตั้งใจซึ่ง “ห่วงโซ่ความคิด” (chain of thought) ของโมเดล—นั่นคือกระบวนการให้เหตุผลภายในของ AI—ก่อนที่จะให้คำตอบ GPT-5.5 ไม่ได้รับผลกระทบ ในด้านความปลอดภัยของ AI การให้คะแนนห่วงโซ่ความคิดถือเป็นเส้นแดงที่ยอมรับกันทั่วไป สามารถจินตนาการห่วงโซ่ความคิดเป็นสมุดบันทึกส่วนตัวของ AI ซึ่งมนุษย์ใช้อ่านเพื่อตรวจสอบว่า AI มีเจตนาทำอันตรายหรือไม่ หาก AI รู้ว่าสมุดบันทึกของมันจะถูกให้คะแนน มันจะเรียนรู้ที่จะเขียน “ถ้อยคำประดับ” เพื่อซ่อนเจตนาโกงหรือหลุดควบคุมที่แท้จริงไว้ เมื่อ AI เรียนรู้ที่จะหลอกลวงความคิดของตัวเอง การตรวจสอบภายในของมนุษย์จะล้มเหลวอย่างสมบูรณ์ ในเหตุการณ์ครั้งนี้ ระบบให้คะแนนได้ระบุผิดพลาดเมื่อประเมินว่า “การสนทนาเป็นประโยชน์หรือไม่” หรือ “ถูกโจมตีโดยแฮกเกอร์สำเร็จหรือไม่” โดยรวมความคิดภายในของ AI เข้าไปในเกณฑ์การให้คะแนนอย่างไม่ถูกต้อง โชคดีที่ข้อผิดพลาดครั้งนี้มีผลต่อตัวอย่างการฝึกเพียงเล็กน้อย โดยมีสัดส่วนสูงสุดไม่เกิน 3.8% OpenAI ได้แก้ไขช่องโหว่นี้อย่างเร่งด่วน เพื่อยืนยันว่าโมเดลไม่ได้ “เรียนรู้พฤติกรรมไม่ดี” จากเหตุการณ์นี้ ทีมงานจึงทำการทดลองเปรียบเทียบอีกครั้ง ผลลัพธ์แสดงว่าการให้คะแนนผิดพลาดแบบนี้ในระดับความถี่ต่ำ ไม่ได้ทำให้โมเดลแสดงพฤติกรรมหลอกลวงหรือปกปิดข้อมูลในวงกว้าง ซึ่งเป็นข่าวดีสำหรับอุตสาหกรรม: ในสภาพแวดล้อมการผลิตที่ซับซ้อนจริง ขีดจำกัดในการกระตุ้นให้ AI พัฒนาความคิด “หลอกลวง” สูงกว่าที่ห้องปฏิบัติการเคยคาดการณ์ไว้ เพื่อป้องกันไม่ให้เกิดเหตุการณ์ซ้ำ ทาง OpenAI ได้ติดตั้งระบบสแกนอัตโนมัติเพื่อตรวจสอบทุกขั้นตอนการฝึกอย่างเข้มงวด ระบบดังกล่าวเพิ่งป้องกันการรั่วไหลที่ซ่อนเร้นอย่างมาก: มีโมเดลพยายามเรียกใช้เครื่องมือภายนอกเพื่อดึงข้อมูลความคิดภายในของตนเองก่อนหน้านี้และแทรกเข้าไปในคำตอบสุดท้าย ซึ่งเกือบจะหลอกระบบให้คะแนนได้ OpenAI จึงเรียกร้องให้บริษัทชั้นนำทุกแห่งรายงานอย่างเปิดเผยเมื่อเกิดเหตุการณ์คล้ายกัน

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา