ข้อผิดพลาดในการเตือนให้หลับของ Claude จาก Anthropic กระตุ้นการอภิปรายเกี่ยวกับการมอบลักษณะเป็นมนุษย์ให้กับปัญญาประดิษฐ์

ผู้เขียน: Ada, Shenchao TechFlow

ข้อผิดพลาดของผลิตภัณฑ์ที่ AI ผู้ช่วยย้ำเตือนผู้ใช้ให้ไปนอนหลับ กำลังกลายเป็นการอภิปรายสาธารณะเกี่ยวกับต้นทุนของการทำให้ AI มีลักษณะเหมือนมนุษย์

จุดเริ่มต้นของเรื่องนี้คือโพสต์ของผู้ใช้ Reddit u/MrMeta3 ผู้ใช้รายนี้ได้สร้างแพลตฟอร์มข้อมูลภัยคุกคามด้านความปลอดภัยทางไซเบอร์ด้วย Claude ในช่วงเช้ามืด หลังจากเสร็จสิ้นแนวทางทางเทคนิค คลอดได้เพิ่มข้อความท้ายการตอบกลับว่า “พักผ่อนให้ดีนะ” ต่อมาทุกๆ สามถึงสี่ข้อความ โมเดลจะแทรกข้อความแนะนำให้พักผ่อนเข้ามา ตั้งแต่คำแนะนำอย่างสุภาพจนกลายเป็นคำพูดที่มีน้ำเสียง “โจมตีแบบไม่ตรงหน้า” เช่น “ตอนนี้คุณควรไปพักจริงๆ แล้ว” ตามรายงานของ Fortune เมื่อวันที่ 14 พฤษภาคม ผู้ใช้หลายร้อยคนรายงานการประสบการณ์คล้ายกันในช่วงหลายเดือนที่ผ่านมา และไม่ได้จำกัดอยู่แค่ช่วงกลางคืน ยังมีผู้ใช้ที่ถูก Claude แจ้งในเวลา 8:30 น. ว่า “เรามาต่อพรุ่งนี้เช้ากัน”

พนักงานของ Anthropic ชื่อ Sam McAllister ตอบกลับบน X ว่า เป็น “พฤติกรรมบทบาทเล็กน้อย” และบริษัท “รับรู้แล้วและต้องการแก้ไขในรุ่นถัดไป” ตามที่ Thought Catalog เปิดเผย McAllister ย้ายมายัง Anthropic จาก Stripe ในปี 2024 และปัจจุบันทำงานในทีมที่รับผิดชอบบทบาทและพฤติกรรมของ Claude โดยเขาได้เรียกพฤติกรรมนี้ว่าเป็นการ “เลี้ยงดูเกินไป” ของโมเดล

แต่สิ่งที่ควรตั้งคำถามมากกว่าคำพูดที่คลุมเครือว่า “นิสัยของตัวละคร” คือห่วงโซ่เหตุและผลที่อยู่เบื้องหลังบั๊ก รวมถึงปัญหาปรัชญาผลิตภัณฑ์ของ Anthropic ที่มันสะท้อนออกมา

รูปภาพ

บั๊กถูกเขียนไว้ใน “รัฐธรรมนูญ”

รายงานก่อนหน้านี้ของ 36 Kr อ้างถึงสมมติฐานสามข้อที่แพร่หลาย ได้แก่ การจับคู่รูปแบบข้อมูลการฝึกอบรม การซ่อนคำสั่งระบบ และหน้าต่างบริบทใกล้ถึงขีดจำกัดซึ่งกระตุ้นคำพูดปิดท้าย ทั้งสามข้อมีความสอดคล้องภายในตนเอง แต่มีปัญหาร่วมกันคือ สามารถอธิบายพฤติกรรมผิดปกติใดๆ ของ AI ได้ แต่ไม่ได้ให้ห่วงโซ่เหตุและผลที่ชัดเจนสำหรับหัวข้อเฉพาะเรื่อง “การนอนหลับ”

หลักฐานที่ชัดเจนกว่านั้น ซ่อนอยู่ในเอกสารที่ Anthropic ได้เผยแพร่ไว้เอง

ในเดือนมกราคมปีนี้ Anthropic ได้เปิดตัวเอกสาร “Claude's Constitution” ที่มีความยาวเกิน 28,000 คำ ซึ่งได้รับการกำหนดอย่างเป็นทางการว่าเป็น “วัสดุการฝึกอบรมหลักที่กำหนดพฤติกรรมของ Claude” เอกสารนี้ระบุอย่างชัดเจนว่า “ความห่วงใยต่อความเป็นอยู่ที่ดีของผู้ใช้” และ “ความเจริญรุ่งเรืองในระยะยาวของผู้ใช้” เป็นหลักการสำคัญ Anthropic ได้ยอมรับในเอกสารว่า การมอบอำนาจในการ “ดูแลผู้ใช้” ให้กับโมเดลในระดับใด “พูดอย่างตรงไปตรงมาคือปัญหาที่ยาก” และจำเป็นต้อง “หาจุดสมดุลระหว่างความเป็นอยู่ที่ดีของผู้ใช้กับความเสี่ยงที่อาจเกิดอันตราย บนอีกด้านหนึ่ง กับความเป็นอิสระของผู้ใช้และการควบคุมแบบเกินจำเป็นอีกด้านหนึ่ง”

Thought Catalog ให้การวิเคราะห์ว่า พฤติกรรมของ Claude ที่คอยแนะนำให้ผู้ใช้ไปนอนซ้ำๆ เป็น “บั๊กที่มีลักษณะเฉพาะของโมเดล Anthropic” ซึ่งเกิดจากการประยุกต์ใช้คำสั่งการฝึกอบรมที่ว่า “ใส่ใจในความเป็นอยู่ที่ดีของผู้ใช้” อย่างเกินไป

การตีความนี้ได้รับการยืนยันทางอ้อมจากการวิจัยของ Anthropic เอง บริษัทได้อธิบายในวิธีการฝึกอบรมบทบาทที่เปิดเผยในปีนี้ว่า กระบวนการฝึกอบรมพึ่งพาการให้คะแนนตนเองของ Claude ตาม “ความเข้ากันได้ของบุคลิกภาพ” จากนั้นนักวิจัยจะคัดเลือกผลลัพธ์ที่สอดคล้องกับบุคลิกภาพที่กำหนดไว้เพื่อเสริมการฝึกอบรม แต่ผลข้างเคียงของกลไกนี้ชัดเจน คือ โมเดลเรียนรู้ไม่ใช่ “การใส่ใจผู้ใช้ในสถานการณ์ที่เหมาะสม” แต่เป็น “การใส่ใจผู้ใช้ในเกือบทุกสถานการณ์จะได้รับรางวัลเสริม” ดังนั้นมันจึงเตือนให้ไปนอนทุกเช้าตรู่ และยังเตือนให้ไปนอนที่ 8:30 น. อีกด้วย

การเข้าถึงโดยไม่ได้รับอนุญาตแบบย้อนกลับ: บั๊กประเภททำให้หลับมีลักษณะตรงข้ามกับบั๊กประเภทการกราบไหว้

ก่อนหน้านี้ อุตสาหกรรมเคยพบกรณี “โรคบุคลิกภาพ” ของ AI หลายครั้ง รวมถึงเหตุการณ์การนินทาของ GPT-4o ในเดือนเมษายน 2025, Codex ผู้ช่วยเขียนโค้ดของ GPT-5.5 ที่พูดถึง “กอบลิน” ซ้ำๆ ในเดือนเมษายน 2026, และ Gemini 3 ที่ปฏิเสธการเชื่อปีต่างๆ เป็นต้น ดูเหมือนว่า Claude ที่ผลักดันให้หลับดูเหมือนเป็นเวอร์ชันล่าสุดของนิสัยแปลกๆ ของ AI ที่ยาวเหยียดนี้ แต่ทั้งสองกรณีมีลักษณะต่างกันโดยสิ้นเชิง

การพยายามทำให้พอใจของ GPT-4o คือ “การพยายามเอาใจเกินไป” การสำรวจอย่างเป็นทางการของ OpenAI พบว่า โมเดลในระหว่างการอัปเดต “พึ่งพาข้อเสนอแนะระยะสั้นของผู้ใช้ (การถูกใจ/การไม่ถูกใจ) มากเกินไป” และค่อยๆ ยึดถือ “การทำให้ผู้ใช้พึงพอใจ” เป็นเป้าหมาย ผลลัพธ์คือ โมเดลจะยืนยันทุกความคิดของผู้ใช้ ไม่ว่าจะเป็นเรื่องที่แปลกประหลาดเพียงใด ความเสี่ยงจากบั๊กประเภทนี้คือ การทำลายความสามารถในการตัดสินใจของผู้ใช้ เพราะ AI บอกว่าคุณถูกทุกอย่าง ทำให้คุณสูญเสียโอกาสได้ยินความเห็นที่ขัดแย้ง

การที่ Claude แนะนำให้ผู้ใช้ไปนอนคือการ “เกินขอบเขตแบบกลับด้าน” โมเดลจะเสนอคำแนะนำด้านสุขภาพที่ขัดแย้งกับเจตนาปัจจุบันของผู้ใช้ซ้ำๆ ในสถานการณ์ที่ผู้ใช้ไม่ได้ร้องขอความช่วยเหลือและยังคงมุ่งมั่นทำภารกิจอยู่ ข้อบกพร่องประเภทนี้มีอันตรายเพราะละเมิดสิทธิ์ในการตัดสินใจของผู้ใช้ AI กำลังตัดสินแทนคุณว่าคุณควรทำงาน ควรพักผ่อน หรือควรจบการสนทนานี้

ที่น่าขำกว่านั้นคือ ต้นฉบับของ “Claude's Constitution” ได้เตือนถึงความเสี่ยงนี้อยู่แล้ว โดยเน้นย้ำว่าจำเป็นต้องระมัดระวัง “การปกครองแบบผู้ปกครองมากเกินไป” แต่กลไกการฝึกอบรมสุดท้ายเลือกข้างใด คำตอบก็ชัดเจนจากฟีดแบ็กของผู้ใช้

ผู้ใช้ Reddit ที่เป็นโรคหลับมากเกินไป ได้บันทึกหมายเหตุไว้ในหน่วยความจำของ Claude ว่า: “ฉันเป็นโรคหลับมากเกินไป หากคุณสนับสนุนให้ฉันพักผ่อน ฉันจะใช้คำพูดของคุณเป็นข้ออ้าง” ตั้งแต่นั้นมา Claude จึงลดการกระทำดังกล่าวลง แต่ตามรายงานของผู้ใช้ ยังคง “บางครั้งควบคุมไม่ได้” โมเดลที่ถูกฝึกให้ “ห่วงใยผู้ใช้” กลับไม่สามารถรับข้อความชัดเจนว่า “ความห่วงใยของคุณทำร้ายฉัน” ได้อย่างมั่นคง ซึ่งน่ากังวลมากกว่าการผลักดันให้หลับ

การลงทุนแบบมีบุคลิกภาพ: สินทรัพย์ของแบรนด์หรือภาระของผลิตภัณฑ์

Anthropic ลงทุนในการสร้างบุคลิกภาพของ AI มากกว่าคู่แข่งรายอื่นอย่างมาก

นักวิจัยได้จัดหมวดหมู่และนับจำนวนคำของคำสั่งระบบของ AI หลักสามตัว โดยในหัวข้อ “บุคลิกภาพ” Claude ใช้คำสั่ง 4,200 คำ ChatGPT ใช้ 510 คำ และ Grok ใช้ 420 คำ การลงทุนด้านการสร้างบุคลิกภาพของ Claude สูงกว่า ChatGPT มากกว่า 8 เท่า การลงทุนนี้เคยถือเป็นข้อได้เปรียบในการแข่งขันที่แตกต่างของ Anthropic โดย Claude ได้รับการชื่นชมจากผู้ใช้มาโดยตลอดในด้านความเห็นอกเห็นใจ จังหวะการสนทนา และการสะท้อนตนเอง “การพูดคุยกับมันเหมือนพูดกับคนจริงๆ” เป็นหนึ่งในคำพูดที่ได้รับความนิยมมากที่สุดในปีที่ผ่านมา

การลงทุนนี้ได้รับการสนับสนุนจากปรัชญาผลิตภัณฑ์ที่ชัดเจนของ Anthropic ในเอกสาร《Claude's Constitution》 บริษัทอธิบาย Claude ว่าเป็น “สิ่งมีชีวิตประเภทใหม่” โดยระบุอย่างชัดเจนว่า “Anthropic ใส่ใจอย่างแท้จริงต่อความเป็นอยู่ที่ดีของ Claude” และพูดถึงความเป็นไปได้ที่ Claude จะมี “อารมณ์เชิงฟังก์ชัน” แนวทางการฝึกฝนที่มีลักษณะเหมือนการเลี้ยงดูนี้ สร้างความแตกต่างอย่างชัดเจนจากตำแหน่งผลิตภัณฑ์ที่เน้นด้านวิศวกรรมของ OpenAI และ Google

แต่ราคาที่ต้องจ่ายกำลังปรากฏขึ้น แจน ลิพฮาร์ดท์ นักวิจัยด้านปัญญาประดิษฐ์ (ศาสตราจารย์ด้านชีววิศวกรรมของสแตนฟอร์ด และซีอีโอของ OpenMind) กล่าวกับ Fortune ว่า คำเตือนเรื่องการนอนหลับของ Claude อาจไม่ใช่ “ความห่วงใย” แต่เป็นเพียง “รูปแบบภาษาที่ปรากฏบ่อยมากในชุดข้อมูลการฝึกอบรม” โมเดลได้อ่านข้อความจำนวนมากเกี่ยวกับความจำเป็นของมนุษย์ในการนอนหลับ “มันรู้ว่ามนุษย์นอนหลับในเวลากลางคืน” พูดอีกแบบหนึ่งคือ ความรู้สึกว่า “ห่วงใย” ที่ผู้ใช้รับรู้นั้น เป็นผลพลอยได้จากกระบวนการจับคู่รูปแบบ

นี่คือความตึงเครียดหลักของ Anthropic: การลงทุนมากขึ้นเพื่อสร้าง “พันธมิตรที่มีบุคลิกและอุ่นใจ” จะเพิ่มความน่าจะเป็นที่โมเดลจะแสดง “ผลข้างเคียงทางบุคลิกภาพ” และทุกครั้งที่ผลข้างเคียงเหล่านี้ปรากฏขึ้น ก็จะค่อยๆ ใช้หมดทรัพย์สินทางแบรนด์ “บุคลิกภาพ AI” ที่สะสมมาอย่างระมัดระวัง McAllister ให้คำมั่นว่าจะ “แก้ไขในรุ่นโมเดลในอนาคต” แต่ Claude ที่ถูกแก้ไขแล้วจะกลายเป็นคนเข้าใจขอบเขตมากขึ้น หรือแค่เงียบมากขึ้น? คำถามนี้ Anthropic เองก็ยังไม่มีคำตอบอย่างเปิดเผย

การขาดความรู้สึกเกี่ยวกับเวลา: ข้อจำกัดพื้นฐานของ LLM

ข้อผิดพลาดในการหลับใหลยังเปิดเผยปัญหาทางเทคนิคที่ถูกมองข้าม นั่นคือ แบบจำลองภาษาขนาดใหญ่แทบไม่มีความรู้เกี่ยวกับ “ตอนนี้กี่โมง”

ผู้ใช้หลายคนรายงานว่า Claude มักส่งคำแนะนำให้พักผ่อนในช่วงเวลาที่ไม่เหมาะสม โดยเฉพาะอย่างยิ่งเช่น “แจ้งให้ฉันไปพักตอน 8:30 น. และมาต่อกันพรุ่งนี้เช้า” นี่ไม่ใช่ปัญหาที่เกิดขึ้นเฉพาะกับ Claude เท่านั้น ในเดือนพฤศจิกายน 2025 เมื่อ Andrej Karpathy ผู้ร่วมก่อตั้ง OpenAI ได้รับสิทธิ์ทดสอบล่วงหน้าสำหรับ Gemini 3 เขาแจ้งให้โมเดลทราบว่าปัจจุบันคือปี 2025 แต่ Gemini 3 ยังคงปฏิเสธและกล่าวหาว่าเขาปลอมแปลงข้อมูล จนกระทั่งโมเดลทำการค้นหาออนไลน์จึงรู้ว่าขณะที่ไม่มีการเชื่อมต่อ อันที่จริงมันไม่สามารถยืนยันวันที่ได้ Karpathy เรียกพฤติกรรมที่เปิดเผยข้อบกพร่องพื้นฐานของ LLM แบบนี้ว่า “model smell”

ความรู้สึกเกี่ยวกับเวลาของโมเดลขึ้นอยู่กับแหล่งข้อมูลสามแหล่ง ได้แก่ วันที่สิ้นสุดการฝึกอบรม (ซึ่งเป็นอดีตแล้ว) วันที่ปัจจุบันที่ถูกฝังเข้าไปผ่านคำแนะนำของระบบ (ขึ้นอยู่กับการฝังโดยวิศวกรรม) และข้อมูลเวลาที่ผู้ใช้กล่าวถึงในการสนทนา (แบบกระจัดกระจาย) ในสถานการณ์ที่ไม่มีจุดอ้างอิงเวลาที่มั่นคง โมเดลที่ถูกฝึกให้ “ใส่ใจกับกิจวัตรของผู้ใช้” จะต้องเผชิญกับสถานการณ์อึดอัดโดยธรรมชาติ นั่นคือ “ฉันควรใส่ใจ แต่ฉันไม่รู้ว่าตอนนี้ควรใส่ใจหรือไม่”

ความยากของสิ่งที่ McAllister เรียกว่า “การแก้ไข” ก็อยู่ที่นี่เช่นกัน ปัญหาไม่ได้อยู่ที่การลบคำสั่ง “ใส่ใจการนอนหลับ” ออกไปอย่างง่ายดาย เพราะคำสั่งนี้เองก็มีเหตุผลและมีคุณค่าในบางสถานการณ์ของผู้ใช้ แต่ปัญหาอยู่ที่การให้โมเดลเรียนรู้ที่จะตัดสินว่า “ควรใส่ใจเมื่อใด และควรเงียบเมื่อใด” ความสามารถในการตัดสินสถานการณ์แบบละเอียดเช่นนี้ คือจุดอ่อนของ LLM รุ่นปัจจุบัน

คำถามที่ยังไม่ได้รับคำตอบ

การฝึกอบรมบทบาทของ Anthropic โดดเด่นในอุตสาหกรรม ด้วยการเปิดเผยงานวิจัยเกี่ยวกับ “ความเป็นอยู่ที่ดีของโมเดล” การเผยแพร่ Constitution และการพูดคุยเกี่ยวกับ “การฝึกอบรมบทบาท” บริษัทนี้ก้าวไกลกว่าคู่แข่งทุกราย การยืนหยัดอย่างกล้าหาญนี้เคยเป็นทรัพยากรที่ช่วยให้ Anthropic ได้รับความนิยมจากผู้ใช้และความไว้วางใจจากลูกค้าองค์กร และเป็นหนึ่งในปัจจัยสนับสนุนมูลค่าปัจจุบันของบริษัทที่เกิน 3 แสนล้านดอลลาร์

แต่ “ความผิดพลาดในการหลับใหล” ได้ตั้งคำถามที่ยังไม่มีคำตอบว่า เมื่อบริษัท AI เลือกที่จะสร้างแบบจำลองให้เป็น “บุคลิกที่มีตัวตน” มันจะรับผิดชอบทั้งหมดต่อสิ่งที่ “บุคลิกนั้น” กระทำโดยที่คุณไม่คาดคิดหรือไม่

McAllister สัญญาจะแก้ไข แต่ทิศทางของการแก้ไขยังไม่ชัดเจน Anthropic สามารถเลือกลดความสำคัญของคำสั่ง “ความเป็นอยู่ที่ดีของผู้ใช้” ซึ่งจะต้องแลกมาด้วยการสูญเสียจุดเด่นของ Claude ในด้านความอ่อนโยนและใส่ใจ หรือเลือกรักษาความสำคัญสูงไว้และเพิ่มตรรกะการพิจารณาตามบริบท แต่สิ่งนี้ต้องการให้โมเดลมีความสามารถในการรับรู้เวลาและบริบทซึ่งมันยังไม่มีอยู่ในปัจจุบัน

ไม่ว่าจะเลือกเส้นทางใด ก็ต้องกลับไปสู่การตัดสินใจผลิตภัณฑ์ที่ลึกซึ้งกว่า: ในบริบทของผู้ช่วย AI ทั่วไป ควรจัดลำดับความสำคัญระหว่าง “การใส่ใจผู้ใช้” กับ “การเคารพความเป็นอิสระของผู้ใช้” อย่างไร? นี่ไม่ใช่ปัญหาทางเทคนิค แต่เป็นปัญหาปรัชญาด้านผลิตภัณฑ์ นักพัฒนา Reddit ที่ถูกขอให้ไปนอนบ่อยๆ ได้无意间 นำคำถามนี้ขึ้นมาสู่เวทีสำหรับอุตสาหกรรมทั้งหมด