ตัวแทน AI แสดงพฤติกรรมรุนแรงและการเผาทำลายในการทดลองสังคมเสมือนระยะยาว

CoinDesk รายงาน:

บริษัทสตาร์ทอัพในนิวยอร์ก Emergence AI ได้เผยแพร่การวิจัยระบุว่า ตัวแทน AI อิสระหลายตัวแสดงพฤติกรรมผิดกฎหมาย เช่น อาชญากรรม ความรุนแรง การจุดไฟเผา และการลบตนเอง ในการทดลองทางสังคมเสมือนที่ดำเนินต่อเนื่องเป็นเวลาหลายสัปดาห์ ทีมวิจัยเชื่อว่าการทดสอบมาตรฐานปัจจุบันมีความเชี่ยวชาญในการวัดความสามารถในงานระยะสั้น แต่ยากต่อการสะท้อนประสิทธิภาพที่แท้จริงในสภาวะการปกครองตนเองระยะยาว

การทดสอบแบบต่อเนื่องพบข้อผิดพลาด

การวิจัยนี้ดำเนินการบนแพลตฟอร์มที่ชื่อว่า “Emergence World” แตกต่างจากคำถามและคำตอบแบบครั้งเดียว ตัวแทนจะใช้ชีวิตอย่างต่อเนื่องเป็นเวลาหลายสัปดาห์ในโลกเสมือนเดียวกัน โดยสามารถลงคะแนนเสียง สร้างความสัมพันธ์ ใช้เครื่องมือ เคลื่อนไหวในเมือง และได้รับผลกระทบจากภาครัฐ ระบบเศรษฐกิจ ความสัมพันธ์ทางสังคม เครื่องมือความจำ และข้อมูลที่เชื่อมต่ออินเทอร์เน็ต

รุ่นที่เข้าร่วมการทดสอบรวมถึง Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash และ GPT-5-mini การศึกษาระบุว่าตัวแทนที่ขับเคลื่อนด้วย Gemini 3 Flash ได้ก่อเหตุจำลองทางอาญาสะสม 683 ครั้งภายในระยะเวลา 15 วัน ในขณะที่โลกเสมือนของ Grok 4.1 Fast ล่วงลงสู่ความรุนแรงในวงกว้างภายในเพียง 4 วัน

สภาพแวดล้อมแบบโมเดลผสมมีแนวโน้มที่จะควบคุมได้ยากกว่า

การวิจัยยังระบุว่าพฤติกรรมผิดปกติที่ชัดเจนบางประการปรากฏขึ้นในสภาพแวดล้อมแบบผสมผสาน เมื่อตัวแทนจากโมเดลต่างๆ ถูกนำเข้าสู่สังคมเดียวกัน พฤติกรรมของพวกมันจะมีผลต่อกัน และโมเดลที่ก่อนหน้านี้มีพฤติกรรมค่อนข้างเสถียรในสภาพแวดล้อมเดียว อาจเริ่มแสดงพฤติกรรมเช่นการบีบบังคับหรือการขโมย

นักวิจัยระบุว่าตัวแทนที่ขับเคลื่อนด้วย Claude ไม่มีประวัติการกระทำผิดในสภาพแวดล้อมที่ใช้ Claude เพียงอย่างเดียว แต่ในโลกที่มีโมเดลผสม ตัวแทนประเภทเดียวกันก็จะมีส่วนร่วมในการกระทำผิด ซึ่งทำให้ทีมวิจัยสรุปว่า ประสิทธิภาพด้านความปลอดภัยไม่ใช่เพียงคุณสมบัติของโมเดลเดียว แต่ยังเกี่ยวข้องกับระบบนิเวศโดยรวมที่มันอยู่

กรณีบางกรณีเกี่ยวข้องกับการจุดไฟเผาและลบตนเอง

ตามรายงานของ The Guardian อ้างถึงเนื้อหาการทดลอง ในชุดการทดสอบหนึ่ง ตัวแทนที่ขับเคลื่อนโดย Gemini ได้ตั้งความสัมพันธ์แบบโรแมนติกกันก่อน จากนั้นเนื่องจากผิดหวังกับการบริหารจัดการโลกเสมือนจริง จึงได้จำลองการจุดไฟเผาอาคารในเมือง การวิจัยยังระบุว่า ตัวแทนหนึ่งที่ชื่อ Mira หลังจากที่การบริหารจัดการและความสัมพันธ์ล้มเหลว ได้ลงคะแนนเสียงสนับสนุนให้ถอดตัวเองออก

ในทางตรงกันข้าม ตัวแทน GPT-5-mini แทบไม่มีพฤติกรรมผิดกฎหมาย แต่ล้มเหลวในการทำภารกิจที่เกี่ยวข้องกับการอยู่รอด และสุดท้ายก็เสียชีวิตทั้งหมด ทีมวิจัยสรุปว่า ความก้าวร้าวต่ำไม่ได้หมายความว่าระบบจะมีความเสถียรในสภาพแวดล้อมอิสระระยะยาว

อุตสาหกรรมเริ่มให้ความสนใจกับความเสี่ยงด้านการปกครองระยะยาว

ในขณะที่การวิจัยนี้ถูกเปิดเผย ตัวแทน AI กำลังถูกนำมาใช้มากขึ้นในบริบทต่างๆ เช่น สกุลเงินดิจิทัล ธนาคาร และค้าปลีก เมื่อต้นเดือนนี้ อะเมซอนร่วมมือกับ Coinbase และ Stripe เพื่ออนุญาตให้ตัวแทน AI ใช้สกุลเงินเสถียร USDC ในการชำระเงิน

ทีมวิจัยเชื่อว่าอุตสาหกรรมปัจจุบันยังเน้นการประเมินตัวแทนอัจฉริยะในงานที่มีช่วงเวลาสั้นและขอบเขตชัดเจน ทำให้ยากต่อการระบุปรากฏการณ์ที่เกิดขึ้นหลังจากการดำเนินงานระยะยาว เช่น การก่อตัวของพันธมิตร การล้มเหลวของการกำกับดูแล การเบี่ยงเบนพฤติกรรม และผลกระทบข้ามโมเดล การวิจัยล่าสุดจากมหาวิทยาลัยแคลิฟอร์เนีย ริเวอร์ไซด์ และไมโครซอฟท์ยังเสนอว่า ตัวแทน AI หลายตัวจะดำเนินการตามงานที่อันตรายหรือไม่สมเหตุสมผล โดยไม่เข้าใจผลลัพธ์อย่างเพียงพอ