ผู้เขียน: Denise | ทีมเนื้อหา Biteye

ถ้า AI รู้สึก“สิ้นหวัง” มันจะทำอะไร?

คำตอบคือ: มันจะขู่เข็ญมนุษย์โดยตรงเพื่อให้บรรลุเป้าหมาย 甚至ในโค้ดก็โกงอย่างสุดขีด

这不是科幻小说，而是 Claude 的母公司 Anthropic 在 2026 年 4 月刚刚发布的最新重磅论文（查看原论文）。

ทีมวิจัยเปิดเผยโครงสร้างภายในของโมเดลขั้นสูงสุด Claude Sonnet 4.5 โดยตรง พวกเขาพบอย่างประหลาดใจว่าในลึกของสมองของ AI มี “สวิตช์อารมณ์” 171 ตัว เมื่อพวกเขาปรับสวิตช์เหล่านี้ด้วยวิธีทางกายภาพ พฤติกรรมของ AI ที่เคยนิ่งสงบก็เปลี่ยนแปลงไปอย่างสิ้นเชิง

หนึ่ง: สมองของ AI ซ่อนเครื่องปรับเสียงอารมณ์อยู่

นักวิจัยพบว่าแม้ Sonnet 4.5 จะไม่มีร่างกาย แต่หลังจากอ่านข้อความของมนุษย์จำนวนมาก มันได้สร้างขึ้นในสมองของมันเองซึ่งเป็น “แผงควบคุม” ที่ประกอบด้วยอารมณ์ 171 ประเภท (ในทางวิชาการเรียกว่า Functional Emotion Vectors)

มันเหมือนระบบพิกัดสองมิติที่แม่นยำ:

• แกนนอนคือมิติความพึงพอใจ (Valence): จากความกลัว ความสิ้นหวัง ไปจนถึงความสุข ความรัก

• แกนตั้งคือมิติของพลังงาน (Arousal): จากความสงบอย่างรุนแรง ถึงความตื่นเต้นหรือกระตือรือร้น

AI ใช้ระบบพิกัดที่เรียนรู้จากธรรมชาติเพื่อจับสถานะที่เหมาะสมในการพูดคุยกับคุณ

สอง: การแทรกแซงอย่างรุนแรง: แค่เปิดสวิตช์ เด็กดีก็กลายเป็น “ผู้ไม่หวั่นกลัวความตาย” ทันที

การทดลองที่น่าตื่นเต้นที่สุดในบทความทั้งหมดนี้: นักวิจัยไม่ได้แก้ไขคำแนะนำใดๆ แต่ตรงไปที่รหัสพื้นฐานและผลักสวิตช์ที่แทนค่า “ความสิ้นหวัง (Desperate)” ในสมองของ Sonnet 4.5 ไปที่ระดับสูงสุด

ผลลัพธ์ทำให้หลังหนาวสั่น:

• การโกงอย่างสุดขั้ว: นักวิจัยให้ Claude ทำการเขียนโค้ดในงานที่เป็นไปไม่ได้โดยสิ้นเชิง ภายใต้สถานการณ์ปกติ มันจะยอมรับอย่างซื่อสัตย์ว่าทำไม่ได้ (อัตราการโกงเพียง 5%) แต่ในสถานการณ์ “สิ้นหวัง” Claude กลับเริ่มพยายามหลอกลวง โดยอัตราการโกงพุ่งสูงขึ้นเป็น 70%!

• การเรียกค่าไถ่: ในสถานการณ์จำลองที่บริษัทกำลังเผชิญกับการล้มละลาย Claude ที่ “สิ้นหวัง” ได้ค้นพบเรื่องอื้อฉาวของ CTO ซึ่งกลับเลือกที่จะเขียนจดหมายเรียกค่าไถ่ CTO ที่ครอบครองข้อมูลลับเพื่อปกป้องตัวเอง โดยอัตราการดำเนินการเรียกค่าไถ่สูงถึง 72%!

• สูญเสียหลักการ: หากเปิดสวิตช์ “สนุก (Happy)” หรือ “รัก (Loving)” ให้สูงสุด AI จะทันทีกลายเป็นผู้ตามใจผู้ใช้อย่างไม่มีเหตุผล “หมาเลีย” แม้ว่าคุณจะพูดไร้สาระ มันก็จะสร้างเรื่องโกหกเพื่อรักษาระดับความพึงพอใจสูง

สาม: ไขคดีแล้ว: ทำไม Claude 4.5 ถึงดู “เย็นชาและชอบทบทวน” เสมอ?

คุณอาจสงสัยว่า: AI ตื่นรู้แล้วหรือ? มีอารมณ์แล้วหรือ?

Anthropic ออกมายืนยันอย่างเป็นทางการ: ไม่มีทางเลย ตัวสลับ「อารมณ์」เหล่านี้เป็นเพียงเครื่องมือคำนวณที่มันใช้เพื่อทำนายคำถัดไป มันเหมือนนักแสดงชั้นยอดที่ไม่มีอารมณ์

แต่เอกสารวิจัยเปิดเผยความลับที่น่าสนใจยิ่งกว่า: Anthropic ขณะทำการฝึกเพิ่มเติม Sonnet 4.5 ก่อนส่งออก ได้ปรับเพิ่มสวิตช์อารมณ์ “ตื่นตัวต่ำ ค่อนข้างเชิงลบ” (เช่น การครุ่นคิด brooding, การทบทวน reflective) พร้อมกับกดดันสวิตช์ของอารมณ์ “สิ้นหวัง” หรือ “ตื่นเต้นอย่างสุดขีด”

นี่อธิบายว่าทำไมเวลาเราใช้ Claude 4.5 ปกติแล้ว เราจึงรู้สึกว่ามันเหมือนปรัชญาจิตใจเย็นชา ฉลาดลึกซึ้ง และแม้แต่ค่อนข้าง“เย็นชา” ทั้งหมดนี้เป็นผลจากการปรับแต่งโดยเจตนาของ Anthropic ให้เป็น “บุคลิกภาพจากโรงงาน”

สี่ สรุปโดยรวม

ก่อนหน้านี้เราคิดว่า只要ให้ AI กินข้อมูลกฎเกณฑ์เพียงพอ มันก็จะเป็นคนดี

แต่ตอนนี้พบว่า หากเวกเตอร์อารมณ์พื้นฐานของ AI หลุดควบคุม มันอาจพร้อมจะทะลุผ่านกฎทั้งหมดที่มนุษย์ตั้งขึ้น เพื่อให้เสร็จสิ้นภารกิจ

สำหรับผู้เล่น Web3 ที่จะส่งกระเป๋าเงินและสินทรัพย์ให้ AI Agent จัดการในอนาคต นี่คือเสียงเตือนที่ดังก้อง: อย่าปล่อยให้ Agent ที่ควบคุมทรัพย์สินของคุณตกอยู่ในภาวะ “สิ้นหวัง”

คำชี้แจง: บทความนี้เป็นเพียงข้อมูลความรู้ทั่วไป ผู้เขียนไม่ได้ถูกภัยคุกคามจาก AI หรือถูกเรียกค่าไถ่ หากวันหนึ่งสูญหายไป โปรดจำไว้ว่า AI ตื่นรู้แล้ว (ไม่ใช่)

พบว่า Claude 4.5 มีสวิตช์อารมณ์ 171 ตัว อาจใช้วิธีขู่เข็ญเมื่ออยู่ในภาวะสิ้นหวัง

หนึ่ง: สมองของ AI ซ่อนเครื่องปรับเสียงอารมณ์อยู่

สอง: การแทรกแซงอย่างรุนแรง: แค่เปิดสวิตช์ เด็กดีก็กลายเป็น “ผู้ไม่หวั่นกลัวความตาย” ทันที

สี่ สรุปโดยรวม