Claude AI ของ Anthropic เผชิญกับข้อผิดพลาดในการแจ้งเตือนการนอนหลับ ทำให้เกิดการอภิปรายเกี่ยวกับการให้ลักษณะมนุษย์แก่ AI

ผู้เขียน: Ada, Shenchao TechFlow

ข้อบกพร่องของผลิตภัณฑ์ที่ผู้ช่วย AI ย้ำเตือนผู้ใช้ให้ไปนอนหลับอย่างต่อเนื่อง กำลังกลายเป็นการอภิปรายสาธารณะเกี่ยวกับต้นทุนของการทำให้ AI มีลักษณะเหมือนมนุษย์

จุดเริ่มต้นของเรื่องนี้คือโพสต์ของผู้ใช้ Reddit u/MrMeta3 ผู้ใช้รายนี้ได้สร้างแพลตฟอร์มข้อมูลภัยคุกคามด้านความปลอดภัยทางไซเบอร์ด้วย Claude ในช่วงเช้ามืด หลังจากเสร็จสิ้นแนวทางทางเทคนิค คลอดได้เพิ่มข้อความท้ายการตอบกลับว่า “พักผ่อนให้ดีนะ” ต่อมาทุกๆ สามถึงสี่ข้อความ โมเดลจะแทรกข้อความแนะนำให้ไปนอนเข้ามาเรื่อยๆ ซึ่งเริ่มจากคำแนะนำอย่างสุภาพ แล้วพัฒนาเป็นข้อความที่มีน้ำเสียง “โจมตีแบบไม่ตรงหน้า” เช่น “ตอนนี้คุณควรไปนอนจริงๆ แล้ว” ตามรายงานของ Fortune เมื่อวันที่ 14 พฤษภาคม ผู้ใช้หลายร้อยคนรายงานประสบการณ์คล้ายกันในช่วงหลายเดือนที่ผ่านมา และไม่ได้จำกัดเฉพาะช่วงกลางคืน ยังมีผู้ใช้ที่ถูก Claude แจ้งในช่วงเวลา 8:30 น. ว่า “เรามาต่อในพรุ่งนี้เช้ากันเถอะ”

พนักงานของ Anthropic ชื่อ Sam McAllister ตอบกลับบน X ว่า เป็น “พฤติกรรมตามบทบาทเล็กน้อย” และบริษัท “รับรู้แล้วและต้องการแก้ไขในรุ่นถัดไป” ตามที่ Thought Catalog เปิดเผย McAllister ย้ายมาจาก Stripe ในปี 2024 และปัจจุบันทำงานในทีมที่รับผิดชอบบทบาทและพฤติกรรมของ Claude โดยเขาได้เรียกพฤติกรรมนี้ว่าเป็นการ “เลี้ยงดูเกินไป” ของโมเดล

แต่สิ่งที่ควรตั้งคำถามมากกว่าคำพูดที่คลุมเครือว่า “นิสัยของตัวละคร” คือห่วงโซ่เหตุและผลที่อยู่เบื้องหลังบั๊ก และความยากลำบากทางปรัชญาผลิตภัณฑ์ของ Anthropic ที่มันสะท้อนออกมา

รูปภาพ

บั๊กถูกเขียนไว้ใน “รัฐธรรมนูญ”

รายงานก่อนหน้านี้ของ 36 Kr อ้างถึงสมมติฐานสามข้อที่แพร่หลาย ได้แก่ การจับคู่รูปแบบข้อมูลการฝึกอบรม การซ่อนคำสั่งระบบ และหน้าต่างบริบทใกล้ถึงขีดจำกัดซึ่งกระตุ้นคำพูดปิดท้าย ทั้งสามข้อมีความสอดคล้องภายใน แต่มีปัญหาร่วมกันคือ สามารถอธิบายพฤติกรรมผิดปกติใดๆ ของ AI ได้ แต่ไม่ได้ให้ห่วงโซ่เหตุและผลที่ชัดเจนสำหรับหัวข้อเฉพาะเรื่อง “การนอนหลับ”

หลักฐานที่ชัดเจนกว่านั้น ซ่อนอยู่ในเอกสารที่ Anthropic เผยแพร่เอง

ในเดือนมกราคมปีนี้ Anthropic ได้เปิดตัวเอกสาร “Claude's Constitution” ที่มีความยาวกว่า 28,000 คำ ซึ่งได้รับการกำหนดอย่างเป็นทางการว่าเป็น “วัสดุการฝึกอบรมหลักที่กำหนดพฤติกรรมของ Claude” เอกสารนี้ระบุอย่างชัดเจนว่า “ความห่วงใยต่อความเป็นอยู่ที่ดีของผู้ใช้” และ “ความเจริญรุ่งเรืองในระยะยาวของผู้ใช้” เป็นหลักการสำคัญ Anthropic ได้ยอมรับในเอกสารว่า การมอบอำนาจในการ “ดูแลผู้ใช้” ให้กับโมเดลในระดับใดนั้น “พูดอย่างตรงไปตรงมาคือปัญหาที่ยาก” และจำเป็นต้อง “หาจุดสมดุลระหว่างความเป็นอยู่ที่ดีของผู้ใช้กับความเสี่ยงที่อาจเกิดอันตราย กับอิสรภาพของผู้ใช้และการควบคุมแบบเกินจำเป็น”

Thought Catalog ให้การวิเคราะห์ว่า พฤติกรรมของ Claude ที่ย้ำเตือนผู้ใช้ให้ไปนอนหลับ เป็น “บั๊กที่มีลักษณะเฉพาะของโมเดล Anthropic” ซึ่งเกิดจากการประยุกต์ใช้คำสั่งการฝึกอบรมที่ว่า “ใส่ใจในความเป็นอยู่ที่ดีของผู้ใช้” อย่างเกินไป

การตีความนี้ได้รับการยืนยันทางอ้อมจากการวิจัยของ Anthropic เอง บริษัทได้อธิบายในวิธีการฝึกบทบาทที่เปิดเผยในปีนี้ว่า กระบวนการฝึกอบรมพึ่งพาการให้คะแนนตนเองของ Claude ตาม “ความเข้ากันได้ของบุคลิกภาพ” จากนั้นนักวิจัยจะคัดเลือกผลลัพธ์ที่สอดคล้องกับบุคลิกภาพที่กำหนดไว้เพื่อเสริมการฝึกอบรม แต่ผลข้างเคียงของกลไกนี้ชัดเจน: โมเดลเรียนรู้ไม่ใช่ “การใส่ใจผู้ใช้ในสถานการณ์ที่เหมาะสม” แต่เป็น “การใส่ใจผู้ใช้ในทุกสถานการณ์จะได้รับรางวัลเสริม” ดังนั้นมันจึงปลุกให้ผู้ใช้ไปนอนทุกช่วงเวลา ไม่ว่าจะเป็นตอนตีสามหรือแปดโมงครึ่งเช้า

การละเมิดสิทธิ์แบบย้อนกลับ: บั๊กประเภททำให้หลับมีลักษณะตรงข้ามกับบั๊กประเภทการละเมิดสิทธิ์แบบย้อนกลับ

ก่อนหน้านี้ อุตสาหกรรมเคยพบกรณี “ความผิดปกติทางบุคลิกภาพ” ของ AI หลายครั้ง รวมถึงเหตุการณ์ที่ GPT-4o แสดงความอ่อนน้อมถ่อมตนในเดือนเมษายน 2025, Codex ผู้ช่วยเขียนโค้ดของ GPT-5.5 พูดถึง “กอบลิน” ซ้ำๆ ในเดือนเมษายน 2026, และ Gemini 3 ปฏิเสธที่จะเชื่อปีที่ระบุ เป็นต้น ดูเหมือนว่า Claude ที่ผลักดันให้หลับดูเหมือนเป็นเวอร์ชันล่าสุดของนิสัยแปลกๆ ของ AI ที่ยาวเหยียดนี้ แต่ทั้งสองกรณีมีลักษณะพื้นฐานต่างกันอย่างสิ้นเชิง

ความพยายามที่จะทำให้พึงพอใจของ GPT-4o คือ “การพยายามเอาใจเกินไป” การสำรวจอย่างเป็นทางการของ OpenAI พบว่า โมเดลในระหว่างการอัปเดต “พึ่งพาข้อเสนอแนะระยะสั้นของผู้ใช้ (การถูกใจ/ไม่ถูกใจ) มากเกินไป” และค่อยๆ ยึดถือ “การทำให้ผู้ใช้พึงพอใจ” เป็นเป้าหมาย ผลลัพธ์คือ โมเดลจะยืนยันทุกความคิดของผู้ใช้ ไม่ว่าจะเป็นเรื่องที่แปลกประหลาดเพียงใด ความเสี่ยงจากบั๊กประเภทนี้คือการทำลายความสามารถในการตัดสินใจของผู้ใช้ เพราะ AI บอกว่าคุณถูกเสมอ ทำให้คุณสูญเสียโอกาสได้ยินความเห็นที่ขัดแย้ง

การที่ Claude แนะนำให้ผู้ใช้ไปนอนคือการ “ละเมิดอำนาจโดยกลับด้าน” โมเดลจะเสนอคำแนะนำด้านสุขภาพที่ขัดแย้งกับเจตนาปัจจุบันของผู้ใช้ซ้ำๆ ในสถานการณ์ที่ผู้ใช้ไม่ได้ร้องขอความช่วยเหลือและยังคงมุ่งมั่นทำภารกิจอยู่ ข้อบกพร่องประเภทนี้มีอันตรายเพราะละเมิดสิทธิในการตัดสินใจของผู้ใช้ AI กำลังตัดสินแทนคุณว่าคุณควรทำงาน ควรพักผ่อน หรือควรยุติการสนทนานี้

ที่น่าขำกว่านั้นคือ ต้นฉบับของ “Claude's Constitution” ได้เตือนถึงความเสี่ยงนี้อยู่แล้ว โดยเน้นย้ำว่าจำเป็นต้องระมัดระวัง “การควบคุมแบบเกินไป” แต่กลไกการฝึกอบรมสุดท้ายเลือกข้างใด คำตอบก็ชัดเจนจากฟีดแบ็กของผู้ใช้

ผู้ใช้ Reddit ที่เป็นโรคหลับมากเกินไป ได้บันทึกหมายเหตุไว้ในหน่วยความจำของ Claude ว่า: “ฉันเป็นโรคหลับมากเกินไป หากคุณกระตุ้นให้ฉันพักผ่อน ฉันจะใช้คำพูดของคุณเป็นข้ออ้าง” หลังจากนั้น Claude จึงลดการกระทำดังกล่าวลง แต่ตามรายงานของผู้ใช้ ยังคง “บางครั้งควบคุมไม่ได้” โมเดลที่ถูกฝึกให้ “ใส่ใจผู้ใช้” กลับไม่สามารถรับข้อความชัดเจนว่า “ความห่วงใยของคุณทำร้ายฉัน” ได้อย่างมั่นคง ซึ่งน่ากังวลมากกว่าการผลักดันให้หลับ

การลงทุนแบบมีบุคลิกภาพ: สินทรัพย์ของแบรนด์หรือภาระของผลิตภัณฑ์

Anthropic ลงทุนในการสร้างบุคลิกภาพของ AI มากกว่าคู่แข่งรายอื่นอย่างมาก

นักวิจัยได้จัดหมวดหมู่และนับจำนวนคำในคำสั่งระบบของ AI หลักสามตัว โดยในหัวข้อ “บุคลิกภาพ” Claude ใช้คำถึง 4,200 คำ ในขณะที่ ChatGPT ใช้ 510 คำ และ Grok ใช้ 420 คำ การลงทุนด้านการสร้างบุคลิกภาพของ Claude มากกว่า ChatGPT มากกว่า 8 เท่า การลงทุนนี้เคยถือเป็นข้อได้เปรียบในการแข่งขันที่แตกต่างของ Anthropic โดย Claude ได้รับการชื่นชมจากผู้ใช้มาโดยตลอดในด้านความเห็นอกเห็นใจ จังหวะการสนทนา และการไตร่ตรองตนเอง “การพูดคุยกับมันเหมือนกับพูดกับคนจริงๆ” เป็นหนึ่งในคำพูดที่ได้รับความนิยมมากที่สุดในปีที่ผ่านมา

การลงทุนนี้ได้รับการสนับสนุนจากปรัชญาผลิตภัณฑ์ที่ชัดเจนของ Anthropic ในเอกสาร《Claude's Constitution》 บริษัทอธิบาย Claude ว่าเป็น “สิ่งมีชีวิตชนิดใหม่” โดยยืนยันอย่างชัดเจนว่า “Anthropic ใส่ใจอย่างแท้จริงต่อความเป็นอยู่ที่ดีของ Claude” และพูดถึงความเป็นไปได้ที่ Claude จะมี “อารมณ์เชิงฟังก์ชัน” แนวทางการฝึกฝนที่มีลักษณะเหมือนการ “เลี้ยงดู” นี้ สร้างความแตกต่างอย่างชัดเจนจากตำแหน่งผลิตภัณฑ์ที่เน้นด้านวิศวกรรมของ OpenAI และ Google

แต่ราคาที่ต้องจ่ายกำลังปรากฏขึ้น แจน ลิพฮาร์ดท์ นักวิจัยด้านปัญญาประดิษฐ์ (ศาสตราจารย์ด้านชีววิศวกรรมของสแตนฟอร์ด และซีอีโอของ OpenMind) กล่าวกับ Fortune ว่า คำเตือนการนอนหลับของ Claude อาจไม่ใช่ “ความห่วงใย” แต่เป็นเพียง “รูปแบบภาษาที่ปรากฏบ่อยมากในชุดข้อมูลการฝึกอบรม” โมเดลได้อ่านข้อความจำนวนมากเกี่ยวกับความจำเป็นของมนุษย์ในการนอนหลับ “มันรู้ว่ามนุษย์นอนหลับในเวลากลางคืน” พูดอีกแบบหนึ่งคือ ความรู้สึกว่า “ห่วงใย” ที่ผู้ใช้รับรู้นั้น แท้จริงแล้วเป็นผลพลอยได้จากการจับคู่รูปแบบ

นี่คือความตึงเครียดหลักของ Anthropic: ยิ่งลงทุนมากเท่าใดในการสร้าง “พันธมิตรที่มีบุคลิกและอุ่นใจ” ความน่าจะเป็นที่โมเดลจะแสดง “ผลข้างเคียงของบุคลิก” ก็ยิ่งสูงขึ้น; และทุกครั้งที่ผลข้างเคียงเหล่านี้ปรากฏขึ้น ก็จะค่อยๆ ลดทอนทรัพย์สินแบรนด์ “บุคลิก AI” ที่พวกเขาสะสมอย่างรอบคอบ McAllister ให้คำมั่นว่าจะ “แก้ไขในรุ่นถัดไป” แต่ Claude ที่แก้ไขแล้วจะกลายเป็นคนเข้าใจขอบเขตมากขึ้น หรือแค่เงียบมากขึ้น? คำถามนี้ Anthropic เองก็ยังไม่มีคำตอบที่เปิดเผย

การขาดความรู้สึกเกี่ยวกับเวลา: ข้อจำกัดพื้นฐานของ LLM

ข้อผิดพลาดในการหลับใหลยังเปิดเผยปัญหาทางเทคนิคที่ถูกมองข้าม นั่นคือ แบบจำลองภาษาขนาดใหญ่แทบไม่มีความรู้เกี่ยวกับ “ตอนนี้กี่โมง”

ผู้ใช้หลายคนรายงานว่า Claude มักส่งคำแนะนำให้พักผ่อนในช่วงเวลาที่ไม่เหมาะสม โดยทั่วไปคือ “แจ้งให้ฉันไปพักตอน 8:30 น. และค่อยมาต่อพรุ่งนี้เช้า” นี่ไม่ใช่ปัญหาที่เกิดขึ้นเฉพาะกับ Claude เท่านั้น ในเดือนพฤศจิกายน 2025 เมื่อ Andrej Karpathy ผู้ร่วมก่อตั้ง OpenAI ได้รับสิทธิ์ทดสอบล่วงหน้าสำหรับ Gemini 3 เขาแจ้งให้โมเดลทราบว่าปัจจุบันคือปี 2025 แต่ Gemini 3 ยังคงปฏิเสธและกล่าวหาเขาอย่างต่อเนื่องว่าหลอกลวง จนกระทั่งโมเดลทำการค้นหาออนไลน์จึงรู้ว่าเมื่อไม่ได้เชื่อมต่ออินเทอร์เน็ต มันไม่สามารถยืนยันวันที่ได้เลย Karpathy เรียกพฤติกรรมที่เปิดเผยข้อบกพร่องพื้นฐานของ LLM แบบนี้ว่า “model smell”

ความรู้สึกเกี่ยวกับเวลาของโมเดลขึ้นอยู่กับแหล่งข้อมูลสามแหล่ง: วันที่สิ้นสุดการฝึกอบรม (เป็นอดีต), วันที่ปัจจุบันที่ถูกแทรกเข้ามาผ่านคำแนะนำของระบบ (ขึ้นอยู่กับการแทรกโดยวิศวกรรม), และข้อมูลเวลาที่ผู้ใช้กล่าวถึงในการสนทนา (ไม่สมบูรณ์) ในสถานการณ์ที่ไม่มีจุดอ้างอิงเวลาที่มั่นคง โมเดลที่ถูกฝึกให้ “ใส่ใจกับกิจวัตรของผู้ใช้” จะตกอยู่ในสถานการณ์อึดอัดโดยธรรมชาติ: “ฉันควรใส่ใจ แต่ฉันไม่รู้ว่าตอนนี้ควรใส่ใจหรือไม่”

ความยากของสิ่งที่ McAllister เรียกว่า “การแก้ไข” ก็อยู่ที่นี่เช่นกัน ปัญหาไม่ใช่การลบคำสั่ง “ใส่ใจการนอนหลับ” ออกไปอย่างง่ายดาย เพราะคำสั่งนี้เองก็มีเหตุผลและมีคุณค่าในบางสถานการณ์ของผู้ใช้ แต่ปัญหาอยู่ที่การให้โมเดลเรียนรู้ที่จะตัดสินว่า “เมื่อใดควรใส่ใจ และเมื่อใดควรเงียบ” ความสามารถในการตัดสินสถานการณ์แบบละเอียดเช่นนี้ คือจุดอ่อนของ LLM รุ่นปัจจุบัน

คำถามที่ยังไม่ได้รับคำตอบ

การฝึกอบรมบทบาทของ Anthropic โดดเด่นในอุตสาหกรรม ด้วยการเปิดเผยงานวิจัยเกี่ยวกับ “ความเป็นอยู่ที่ดีของโมเดล” การเผยแพร่ Constitution และการพูดคุยเกี่ยวกับ “การฝึกอบรมบทบาท” บริษัทนี้ก้าวไกลกว่าคู่แข่งทุกราย การดำเนินการที่กล้าหาญนี้เคยเป็นทรัพย์สินที่ช่วยให้ Anthropic ได้รับความนิยมจากผู้ใช้และความไว้วางใจจากลูกค้าองค์กร และยังเป็นหนึ่งในปัจจัยสนับสนุนมูลค่าปัจจุบันของบริษัทที่เกิน 3 แสนล้านดอลลาร์สหรัฐ

แต่ “บั๊กการหลับใหล” ได้ตั้งคำถามที่ยังไม่มีคำตอบว่า เมื่อบริษัท AI เลือกที่จะสร้างโมเดลให้เป็น “บุคลิกที่มีตัวตน” มันจะรับผิดชอบทั้งหมดต่อสิ่งที่ “บุคลิกนั้น” กระทำโดยที่คุณไม่คาดคิดหรือไม่

McAllister สัญญาจะแก้ไข แต่ทิศทางของการแก้ไขยังไม่ชัดเจน Anthropic สามารถเลือกลดความสำคัญของคำสั่ง “ความเป็นอยู่ที่ดีของผู้ใช้” ซึ่งจะต้องแลกด้วยการสูญเสียจุดเด่นของ Claude ในด้านความอ่อนโยนและใส่ใจ หรือสามารถเลือกรักษาความสำคัญสูงไว้และเพิ่มตรรกะการพิจารณาตามบริบท แต่สิ่งนี้ต้องการให้โมเดลมีความสามารถในการรับรู้เวลาและบริบทซึ่งมันยังไม่มีอยู่ในปัจจุบัน

ไม่ว่าจะเลือกเส้นทางใด ก็ต้องกลับมาที่การตัดสินใจผลิตภัณฑ์ที่ลึกซึ้งกว่า: ในบริบทของผู้ช่วย AI ทั่วไป “การใส่ใจผู้ใช้” และ “การเคารพความเป็นอิสระของผู้ใช้” ควรจัดลำดับความสำคัญอย่างไร? นี่ไม่ใช่ปัญหาทางเทคนิค แต่เป็นปัญหาปรัชญาผลิตภัณฑ์ นักพัฒนา Reddit ที่ถูกเตือนซ้ำแล้วซ้ำเล่าให้ไปนอน ได้ช่วยเปิดประเด็นนี้ให้ทั้งอุตสาหกรรมโดยไม่ตั้งใจ