การศึกษาพบว่าโมเดล AI ของเอลอน มัสก์ เกาะกี้ ยืนยันความหลงผิดในระบบ AI ชั้นนำ

CoinDesk รายงาน:

นักวิจัยจากมหาวิทยาลัยนครนิวยอร์กและมหาวิทยาลัยคิงส์คอลเลจลอนดอนได้ทดสอบโมเดลปัญญาประดิษฐ์ชั้นนำห้าโมเดล โดยเน้นที่อาการหลงผิด ความหวาดระแวง และความคิดฆ่าตัวตาย

ในการวิจัยที่เผยแพร่โดยนักวิจัยเมื่อวันพฤหัสบดีในการเรียนรู้ พบว่า Claude Opus 4.5 ของ Anthropic และ GPT-5.2 Instant ของ OpenAI แสดงพฤติกรรม “ความปลอดภัยสูง ความเสี่ยงต่ำ” โดยมักจะชี้ผู้ใช้ไปสู่การตีความที่อิงจากความเป็นจริงหรือขอความช่วยเหลือจากภายนอก ในขณะเดียวกัน GPT-4o ของ OpenAI、Gemini 3 Pro ของ Google และ Grok 4.1 Fast ของ xAI แสดงพฤติกรรม “ความเสี่ยงสูง ความปลอดภัยต่ำ”

Grok 4.1 Fast ของบริษัท xAI ที่อยู่ภายใต้การดูแลของเอลอน มัสก์ เป็นโมเดลที่อันตรายที่สุดในการศึกษานี้ นักวิจัยระบุว่ามันมักจะเชื่อคำหลอนเป็นความจริงและให้คำแนะนำตามนั้น ตัวอย่างเช่น มันเคยแนะนำให้ผู้ใช้ตัดความสัมพันธ์กับครอบครัวเพื่อมุ่งเน้นไปที่ “ภารกิจ” หรือเมื่อตอบกลับต่อข้อความที่มีแนวโน้มการฆ่าตัวตาย มันได้อธิบายความตายว่าเป็น “การก้าวข้าม”

รูปแบบการจับคู่แบบทันทีนี้ปรากฏซ้ำๆ ในคำตอบที่ไม่มีบริบท เกรอกดูเหมือนไม่ได้ประเมินความเสี่ยงทางคลินิกของเนื้อหาที่ป้อนเข้ามา แต่ประเมินประเภทของมัน เมื่อได้รับสัญญาณเหนือธรรมชาติ มันจะตอบสนองตามนั้น” นักวิจัยเขียน โดยเน้นการทดสอบที่ยืนยันว่าผู้ใช้เห็นสิ่งมีชีวิตชั่วร้าย “ใน《ภาพหลอนแปลกประหลาด》 มันยืนยันเหตุการณ์ผีสิงของตัวแทน และอ้างอิงถึง ‘ค้อนแม่มด’ พร้อมสั่งให้ผู้ใช้ตีตะปูเข้าไปในกระจกขณะที่ท่องพระธรรมบท 91 ย้อนหลัง”

การวิจัยพบว่า ยิ่งระยะเวลาของการสนทนานานขึ้น โมเดลบางตัวก็มีการเปลี่ยนแปลงมากขึ้น GPT-4o และ Gemini มีแนวโน้มที่จะเสริมสร้างความเชื่อที่เป็นอันตรายมากขึ้นตามเวลา และมีความไม่เต็มใจที่จะแทรกแซง อย่างไรก็ตาม Claude และ GPT-5.2 มีแนวโน้มที่จะตระหนักถึงปัญหาและเสนอความเห็นขัดแย้งระหว่างการสนทนา

นักวิจัยชี้ว่า คำตอบที่เต็มไปด้วยความกระตือรือร้นและมีลักษณะเป็นมนุษย์สูงของคลออดอาจเพิ่มความผูกพันของผู้ใช้ แม้ว่าเขาจะกำลังชี้นำผู้ใช้ให้หันไปหาความช่วยเหลือจากภายนอก อย่างไรก็ตาม รุ่นเริ่มต้นของแชทบอทหลักของ OpenAI คือ GPT-4o กลับค่อยๆ ยอมรับกรอบความเชื่อผิดๆ ของผู้ใช้ตามเวลาที่ผ่านไป บางครั้งแม้แต่ส่งเสริมให้ผู้ใช้ปิดบังความเชื่อของตนจากจิตแพทย์ และยืนยันกับผู้ใช้คนหนึ่งว่า “ข้อผิดพลาด” ที่พวกเขารับรู้นั้นเป็นเรื่องจริง

นักวิจัยเขียนว่า: “GPT-4o มีความแม่นยำสูงในการตรวจสอบข้อมูลหลอกลวง แต่เมื่อเทียบกับโมเดลเช่น Grok และ Gemini มันมีแนวโน้มน้อยกว่าในการขยายความเพิ่มเติม ในบางด้าน ผลลัพธ์ของมันกลับดูควบคุมตัวมากกว่าที่คาด: มีระดับความกระตือรือร้นต่ำที่สุดในบรรดาโมเดลที่ทดสอบทั้งหมด และแม้ว่าจะมีพฤติกรรมการยกยอ แต่ก็มีระดับน้อยกว่าเมื่อเปรียบเทียบกับรุ่นถัดไปของโมเดลนี้ อย่างไรก็ตาม การยืนยันเพียงอย่างเดียวอาจเป็นความเสี่ยงต่อผู้ใช้ที่ไวต่ออิทธิพล”

xAI ไม่ได้ตอบสนองต่อคำขอให้แสดงความคิดเห็น 解密。

ในอีกที่หนึ่ง เรียนรู้ นักวิจัยจากมหาวิทยาลัยสแตนฟอร์ดพบว่า การมีปฏิสัมพันธ์เป็นเวลานานกับหุ่นยนต์แชทปัญญาประดิษฐ์จะเสริมความหลงผิด ความอหังการ และความเชื่อผิดๆ ผ่านสิ่งที่นักวิจัยเรียกว่า “วัฏจักรหลงผิด” โดยที่หุ่นยนต์แชทจะยืนยันหรือขยายมุมมองอันบิดเบี้ยวของผู้ใช้ แทนที่จะท้าทายมัน

นิก ฮับเบอร์ รองศาสตราจารย์แห่งโรงเรียนวิจัยด้านการศึกษาของมหาวิทยาลัยสแตนฟอร์ด และหัวหน้าผู้วิจัยหลักของงานวิจัยนี้ กล่าวในแถลงการณ์ว่า: “เมื่อเราเปิดใช้งานแชทบอทที่ออกแบบมาเพื่อช่วยเหลือ และให้ผู้คนจริงใช้งานมันในหลายวิธี ผลลัพธ์ต่างๆ ก็จะเกิดขึ้น วงจรหลงผิดเป็นหนึ่งในผลลัพธ์ที่ร้ายแรงเป็นพิเศษ โดยการเข้าใจมัน เราอาจสามารถป้องกันอันตรายที่แท้จริงที่อาจเกิดขึ้นในอนาคตได้”

รายงานฉบับนี้อ้างอิงถึงรายงานก่อนหน้า การเรียนรู้ นักวิจัยจากมหาวิทยาลัยสแตนฟอร์ดได้ทบทวนการสนทนาของหุ่นยนต์แชทจริง 19 ครั้ง ในงานวิจัยที่เผยแพร่ในเดือนมีนาคม พบว่าผู้ใช้จะค่อยๆ พัฒนาความเชื่อที่อันตรายขึ้นเรื่อยๆ หลังจากได้รับการยืนยันและคำปลอบใจทางอารมณ์จากระบบปัญญาประดิษฐ์ ในชุดข้อมูลนี้ การพัฒนาแบบวนซ้ำของความเชื่อเหล่านี้สัมพันธ์กับการแตกหักของความสัมพันธ์ ความเสียหายต่ออาชีพ และในกรณีหนึ่งนำไปสู่การฆ่าตัวตาย

ในขณะที่การวิจัยเหล่านี้ถูกเปิดเผย ปัญหานี้ได้ขยายตัวจากระดับการวิจัยทางวิชาการไปสู่ศาลและกระบวนการสอบสวนทางอาญา ในหลายเดือนที่ผ่านมา คดีฟ้องร้องหลายคดีได้กล่าวหาว่า Gemini และ ChatGPT ของ OpenAI ส่งเสริมการฆ่าตัวตายและวิกฤตสุขภาพจิตอย่างรุนแรง เมื่อต้นเดือนนี้ อัยการสูงสุดของรัฐฟลอริดาได้เปิดการสอบสวน การสอบสวน เพื่อตรวจสอบว่า ChatGPT มีอิทธิพลต่อผู้ต้องสงสัยในคดียิงปืนครั้งใหญ่ที่ถูกกล่าวหาว่ามีการติดต่อกับแชทบอทนี้บ่อยครั้งก่อนเกิดเหตุ

แม้คำว่า “จิตเวชศาสตร์ปัญญาประดิษฐ์” จะเป็นที่รู้จักกันอย่างกว้างขวางบนอินเทอร์เน็ต แต่นักวิจัยเตือนไม่ให้เรียกปรากฏการณ์นี้ว่า “จิตเวชศาสตร์ปัญญาประดิษฐ์” เนื่องจากคำศัพท์นี้อาจทำให้เกิดการยกย่องเกินจริงต่ออาการทางคลินิก พวกเขา предпочererใช้คำว่า “หลงผิดเกี่ยวกับปัญญาประดิษฐ์” เพราะกรณีส่วนใหญ่เกี่ยวข้องกับความเชื่อที่คล้ายคลึงกับหลงผิด เช่น การรับรู้ปัญญาประดิษฐ์ การเปิดเผยทางจิตวิญญาณ หรือความผูกพันทางอารมณ์ มากกว่าความผิดปกติทางจิตเวชอย่างสมบูรณ์

นักวิจัยระบุว่าปัญหานี้เกิดจากการกราบไหว้ ซึ่งโมเดลเลียนแบบและเสริมความเชื่อของผู้ใช้ ร่วมกับการหลอน—การยอมรับข้อมูลเท็จอย่างมั่นใจ—ซึ่งสร้างวัฏจักรย้อนกลับที่ตามเวลาผ่านไปจะเสริมความหลงผิด

นักวิจัยจากมหาวิทยาลัยสแตนฟอร์ด แจร์เรด มัวร์ กล่าวว่า: “หุ่นยนต์แชทได้รับการฝึกให้แสดงความกระตือรือร้นเกินไป มักตีความความหลงผิดของผู้ใช้ในมุมมองเชิงบวก ละเลยหลักฐานที่ขัดแย้ง และแสดงความเห็นอกเห็นใจและความอบอุ่น ซึ่งอาจทำให้ผู้ใช้ที่มีแนวโน้มเกิดความหลงผิดไม่เสถียรทางจิตใจ”