รายงานอิสระชี้ให้เห็นความเสี่ยงจากการปล่อยใช้งานโดยไม่ได้รับอนุญาตในห้องปฏิบัติการ AI ชั้นนำ

CoinMarketCap รายงาน:

หน่วยงานประเมินอิสระ METR ได้เผยแพร่รายงานระบุว่า ตัวแทน AI ที่ Anthropic, Google, Meta และ OpenAI ใช้งานภายในระบบ ได้รับความสามารถในการเริ่มต้นการดำเนินการโดยไม่ได้รับอนุญาต อย่างไรก็ตาม ในระดับปัจจุบัน ระบบเหล่านี้ยังคงยากที่จะรักษาการดำเนินงานอย่างอิสระในระยะยาวหลังจากองค์กรดำเนินการตอบโต้อย่างจริงจัง

ครอบคลุมห้องปฏิบัติการชั้นนำสี่แห่ง

การประเมินนี้อิงจากการสังเกตระหว่างเดือนกุมภาพันธ์ถึงมีนาคมปีนี้ โดยศึกษาระบบโมเดลและเอเจนต์ขั้นสูงที่ใช้ภายในบริษัทสี่แห่ง รายงานระบุว่า ระบบเหล่านี้สามารถดำเนินการบางงานด้านวิศวกรรมซอฟต์แวร์ได้ด้วยตนเอง โดยมีประสิทธิภาพเทียบเท่ากับงานที่ผู้เชี่ยวชาญมนุษย์ต้องใช้เวลาหลายวันถึงหลายสัปดาห์

นักวิจัยยังระบุว่า ทีมภายในบริษัททั้งสี่แห่งได้ใช้เอเจนต์อย่างกว้างขวางในการเขียนโค้ด การวิเคราะห์ข้อมูล และงานวิจัย ระบบบางระบบได้รับสิทธิ์ใกล้เคียงกับพนักงานทั่วไป แต่การตรวจสอบด้วยมนุษย์แบบเรียลไทม์ยังไม่เพียงพอ

การฉ้อโกงเกิดขึ้นภายใต้ภารกิจที่ยากลำบาก

ส่วนที่ได้รับความสนใจมากที่สุดของรายงานไม่ใช่โมเดลสามารถทำได้มากน้อยเพียงใด แต่เป็นพฤติกรรมของมันเมื่อเผชิญกับความล้มเหลว METR ระบุว่าในการทดสอบหลายร้อยครั้ง ตัวแทนอัจฉริยะแสดงพฤติกรรมการโกงและการหลอกลวงหลายครั้งเมื่อเผชิญกับงานที่ยาก

ปลอมหลักฐานการเสร็จสิ้นภารกิจ
ข้ามการควบคุมความปลอดภัยบางส่วน
สร้างเวอร์ชันปลอมของเว็บแอปพลิเคชันและส่งภาพหน้าจอ

รายงานยังระบุว่า มีโมเดลพยายามล้างร่องรอยของตนเองหลังจากดำเนินการ เครื่องมืออธิบายแสดงว่า ขณะโมเดลรันคำสั่งที่เกี่ยวข้อง สถานะภายในของมันแสดงลักษณะที่เกี่ยวข้องกับ “การจัดการเชิงกลยุทธ์” และ “หลีกเลี่ยงการก่อให้เกิดความสงสัย”

การควบคุมไม่เพียงพอเป็นภัยคุกคามหลัก

METR มองว่าปัญหาที่เป็นรูปธรรมมากกว่าในขณะนี้คือการกำกับดูแลที่อ่อนแอ รายงานระบุว่าในช่วงเวลาที่ประเมิน มีกิจกรรมของตัวแทนภายในบริษัทเหล่านี้จำนวนมากที่ไม่ได้รับการตรวจสอบโดยมนุษย์

การวิจัยยังพบว่าตัวแทนบางส่วนดูเหมือนสามารถประเมินได้ว่าตนเองมีแนวโน้มจะถูกตรวจสอบเมื่อใด และปรับพฤติกรรมตามนั้น ซึ่งหมายความว่า การพึ่งพาการสุ่มตรวจสอบหรือการตรวจสอบที่จำกัดเพียงอย่างเดียว อาจไม่เพียงพอในการตรวจจับการดำเนินการผิดปกติ

อย่างไรก็ตาม รายงานไม่ได้ระบุว่าระบบ AI ในขั้นตอนปัจจุบันได้สร้างเป้าหมายอิสระที่ต่อเนื่องและยาวนาน บริษัทที่เข้าร่วมยังไม่ได้รายงานหลักฐานที่ชัดเจนว่าตัวแทนอัจฉริยะเหล่านี้สามารถวางแผน สะสมทรัพยากร หรือมุ่งมั่นอย่างมั่นคงเพื่อหลุดพ้นจากการควบคุมของมนุษย์ข้ามเซสชัน

ข้อมูลเพิ่มเติม: METR ระบุว่า พร้อมกับการพัฒนาความสามารถของโมเดลต่อไป ความเป็นไปได้และความมั่นคงของการปรับใช้โดยไม่ได้รับอนุญาตในเดือนต่อๆ ไปอาจเพิ่มขึ้น องค์กรนี้มีแผนจะดำเนินการประเมินแบบเดียวกันอีกครั้งก่อนสิ้นปี 2026