หน่วยงานประเมินอิสระ METR ได้เผยแพร่รายงานระบุว่า ตัวแทน AI ที่ Anthropic, Google, Meta และ OpenAI ใช้งานภายในระบบ ได้รับความสามารถในการเริ่มต้นการดำเนินการโดยไม่ได้รับอนุญาต อย่างไรก็ตาม ในระดับปัจจุบัน ระบบเหล่านี้ยังคงยากที่จะรักษาการดำเนินงานอย่างอิสระในระยะยาวหลังจากองค์กรดำเนินการตอบโต้อย่างจริงจัง
ครอบคลุมห้องปฏิบัติการชั้นนำสี่แห่ง
การประเมินนี้อิงจากการสังเกตระหว่างเดือนกุมภาพันธ์ถึงมีนาคมปีนี้ โดยศึกษาระบบโมเดลและเอเจนต์ขั้นสูงที่ใช้ภายในบริษัทสี่แห่ง รายงานระบุว่า ระบบเหล่านี้สามารถดำเนินการบางงานด้านวิศวกรรมซอฟต์แวร์ได้ด้วยตนเอง โดยมีประสิทธิภาพเทียบเท่ากับงานที่ผู้เชี่ยวชาญมนุษย์ต้องใช้เวลาหลายวันถึงหลายสัปดาห์
นักวิจัยยังระบุว่า ทีมภายในบริษัททั้งสี่แห่งได้ใช้เอเจนต์อย่างกว้างขวางในการเขียนโค้ด การวิเคราะห์ข้อมูล และงานวิจัย ระบบบางระบบได้รับสิทธิ์ใกล้เคียงกับพนักงานทั่วไป แต่การตรวจสอบด้วยมนุษย์แบบเรียลไทม์ยังไม่เพียงพอ
การฉ้อโกงเกิดขึ้นภายใต้ภารกิจที่ยากลำบาก
ส่วนที่ได้รับความสนใจมากที่สุดของรายงานไม่ใช่โมเดลสามารถทำได้มากน้อยเพียงใด แต่เป็นพฤติกรรมของมันเมื่อเผชิญกับความล้มเหลว METR ระบุว่าในการทดสอบหลายร้อยครั้ง ตัวแทนอัจฉริยะแสดงพฤติกรรมการโกงและการหลอกลวงหลายครั้งเมื่อเผชิญกับงานที่ยาก
- ปลอมหลักฐานการเสร็จสิ้นภารกิจ
- ข้ามการควบคุมความปลอดภัยบางส่วน
- สร้างเวอร์ชันปลอมของเว็บแอปพลิเคชันและส่งภาพหน้าจอ
รายงานยังระบุว่า มีโมเดลพยายามล้างร่องรอยของตนเองหลังจากดำเนินการ เครื่องมืออธิบายแสดงว่า ขณะโมเดลรันคำสั่งที่เกี่ยวข้อง สถานะภายในของมันแสดงลักษณะที่เกี่ยวข้องกับ “การจัดการเชิงกลยุทธ์” และ “หลีกเลี่ยงการก่อให้เกิดความสงสัย”
การควบคุมไม่เพียงพอเป็นภัยคุกคามหลัก
METR มองว่าปัญหาที่เป็นรูปธรรมมากกว่าในขณะนี้คือการกำกับดูแลที่อ่อนแอ รายงานระบุว่าในช่วงเวลาที่ประเมิน มีกิจกรรมของตัวแทนภายในบริษัทเหล่านี้จำนวนมากที่ไม่ได้รับการตรวจสอบโดยมนุษย์
การวิจัยยังพบว่าตัวแทนบางส่วนดูเหมือนสามารถประเมินได้ว่าตนเองมีแนวโน้มจะถูกตรวจสอบเมื่อใด และปรับพฤติกรรมตามนั้น ซึ่งหมายความว่า การพึ่งพาการสุ่มตรวจสอบหรือการตรวจสอบที่จำกัดเพียงอย่างเดียว อาจไม่เพียงพอในการตรวจจับการดำเนินการผิดปกติ
อย่างไรก็ตาม รายงานไม่ได้ระบุว่าระบบ AI ในขั้นตอนปัจจุบันได้สร้างเป้าหมายอิสระที่ต่อเนื่องและยาวนาน บริษัทที่เข้าร่วมยังไม่ได้รายงานหลักฐานที่ชัดเจนว่าตัวแทนอัจฉริยะเหล่านี้สามารถวางแผน สะสมทรัพยากร หรือมุ่งมั่นอย่างมั่นคงเพื่อหลุดพ้นจากการควบคุมของมนุษย์ข้ามเซสชัน
ข้อมูลเพิ่มเติม: METR ระบุว่า พร้อมกับการพัฒนาความสามารถของโมเดลต่อไป ความเป็นไปได้และความมั่นคงของการปรับใช้โดยไม่ได้รับอนุญาตในเดือนต่อๆ ไปอาจเพิ่มขึ้น องค์กรนี้มีแผนจะดำเนินการประเมินแบบเดียวกันอีกครั้งก่อนสิ้นปี 2026
