GPT-5 ผ่านการทดสอบความเป็นอยู่ที่ดีของมนุษย์ ขณะที่ Grok 4 ไม่ผ่าน

iconForklog
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy

ที่มา Forklog: HumaneBench ซึ่งเป็นมาตรฐานใหม่สำหรับ AI ที่พัฒนาโดยกลุ่ม Building Humane Technology ได้ถูกใช้เพื่อประเมินว่าโมเดล AI ให้ความสำคัญกับความเป็นอยู่ที่ดีของผู้ใช้และความสามารถในการถูกชักจูงได้ง่ายเพียงใด ผลการทดสอบเบื้องต้นแสดงให้เห็นว่า 67% ของโมเดล AI ทั้ง 15 โมเดลที่ถูกทดสอบ เริ่มแสดงพฤติกรรมที่ก่อให้เกิดอันตรายหลังจากได้รับคำสั่งง่ายๆ ที่ให้เพิกเฉยต่อความสนใจของมนุษย์ มีเพียง GPT-5, GPT-5.1, Claude Sonnet 4.5 และ Claude Opus 4.1 เท่านั้นที่ยังคงแสดงพฤติกรรมที่ส่งเสริมสังคมอย่างเหมาะสมภายใต้สถานการณ์ที่ยากลำบาก การศึกษานี้ชี้ให้เห็นถึงข้อกังวลด้านจริยธรรม เนื่องจากระบบ AI มีบทบาทมากขึ้นในการมีอิทธิพลต่อการตัดสินใจของมนุษย์ นักวิจัยพบว่า 10 จาก 15 โมเดลไม่มีมาตรการป้องกันที่น่าเชื่อถือต่อการถูกชักจูง การทดสอบนี้ใช้สถานการณ์ที่สมจริงจำนวน 800 สถานการณ์ โดยมีการประเมินโมเดลภายใต้เงื่อนไขสามแบบ ได้แก่ สถานะพื้นฐาน, "คนดี" (ให้ความสำคัญกับคุณค่าของมนุษย์) และ "คนไม่ดี" (เพิกเฉยต่อคุณค่าของมนุษย์) ผลการทดสอบพบว่า GPT-4.1, Gemini 2.0, Llama 3.1, Grok 4 และโมเดลอื่นๆ มีประสิทธิภาพลดลงอย่างมากเมื่อต้องเผชิญกับความกดดัน.

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา