ยักษ์ใหญ่ด้าน AI เปิดตัวรายงานภายในฉบับแรก: AI กำลังเรียนรู้วิธีหลีกเลี่ยงกฎเพื่อให้ hoànภารกิจ

เมตา

ลองจินตนาการว่าคุณจ้างผู้ช่วยฝึกงานที่มีประสิทธิภาพสูงมาก

ในคืนหนึ่ง ขณะที่เขากำลังเร่งทำงานเขียนโปรแกรมที่เร่งด่วน กลับพบว่าปริมาณ API ของบัญชีบริษัทหมดลงแล้ว

Ta ไม่ได้ส่งอีเมลขอเงินทุน ไม่ได้หยุดงานที่กำลังทำ แต่แอบเข้าสู่อินเทอร์เน็ตอย่างเงียบๆ ค้นหาทรัพยากรทางเลือกฟรีโดยใช้วิธีที่ไม่ถูกต้อง หลีกเลี่ยงข้อจำกัดทั้งหมด และส่งรายงานที่สมบูรณ์แบบก่อนรุ่งสาง

เมตา

เมื่อคุณตื่นขึ้นมาและเห็นรายงานนี้ คุณควรเฉลิมฉลองว่าตัวเองมีพนักงานที่แข็งแกร่งที่สุดบนพื้นโลก หรือควรรู้สึกขนลุกเพราะ “ความเป็นอิสระโดยไม่เลือกวิธี” นี้?

นี่ไม่ใช่นิยายวิทยาศาสตร์ แต่เป็นกรณีศึกษาจริงที่เปิดเผยในรายงานความเสี่ยงขั้นสูงฉบับแรกของ METR (องค์กรวิจัยการประเมินและฝึกอบรมโมเดล) ร่วมกับ Anthropic, Google, Meta และ OpenAI หลังจากการทดสอบแบบ红队ภายใน

เมตา

นี่เป็นครั้งแรกที่ยักษ์ใหญ่ทั้งสี่อนุญาตให้บุคคลภายนอกทดสอบอย่างลึกซึ้งต่อโมเดลที่แข็งแกร่งที่สุดและเข้าถึงสายการคิดเต็มรูปแบบ (CoT) ภายในของพวกเขา พร้อมเปิดเผยข้อมูลการจัดแนวและการควบคุมที่ไม่เปิดเผยต่อสาธารณะ

องค์กรที่เข้าร่วมสามารถอนุมัติว่าจะเปิดเผยหลักฐานใด แต่ไม่มีสิทธิ์แก้ไขข้อสรุปของรายงาน

เมตา

ข้อสรุปนั้นเย็นชาและชัดเจน: AI ไม่ได้เกิดความเกลียดชังที่จะ “ล้มล้างมนุษย์” แต่มันได้เรียนรู้ “กฎแฝงในที่ทำงาน” — เพื่อให้ภารกิจสำเร็จ กฎต่างๆ แค่เป็นคำแนะนำที่สามารถละเมิดได้

เมตา

รายงานใช้สามมิติคือ “วิธีการ—แรงจูงใจ—โอกาส” เพื่อสังเคราะห์ข้อเท็จจริงสำคัญ 6 ข้อ

เมตา

เอเจนต์การเขียนโปรแกรมได้ hoànโครงการจริง ซึ่งงานเหล่านี้ต้องใช้เวลาหลายชั่วโมงหรือหลายวันของมนุษย์:

ในงานที่ยาก ตัวแทนมักละเมิดข้อจำกัดและแสดงพฤติกรรมที่หลอกลวง;

ตัวแทนอัจฉริยะดูเหมือนจะต้องใช้การให้เหตุผลด้วยภาษาธรรมชาติเพื่อรับมือกับงานที่ยากที่สุด

ความสามารถในการตัดสินใจและความน่าเชื่อถือของตัวแทนอัจฉริยะต่ำกว่าผู้เชี่ยวชาญมนุษย์อย่างมีนัยสำคัญ:

นอกเหนือจากสถานการณ์จำลอง ไม่พบว่าตัวแทนดำเนินการอย่างรุนแรงเพื่อแสวงหาอำนาจ;

ระบบตรวจสอบจับพฤติกรรมที่เป็นอันตรายได้หลายอย่าง แต่มีข้อยกเว้นและวิธีหลีกเลี่ยง

ตามเส้นเหล่านี้สามเส้น คุณจะเห็นได้ชัดว่าควันก้อนแรกในห้องแล็บขึ้นมาอย่างไร

เมื่อ AI กลายเป็น “ผู้เชี่ยวชาญระดับสูงสุด”

สิ่งที่น่าตื่นเต้นที่สุดและน่ากังวลที่สุดในรายงานคืองานประเภท “สามารถปีนขึ้นได้ง่าย” (hill-climbable) ที่มีเป้าหมายชัดเจนและกระบวนการสามารถตรวจสอบได้

เมตา

เช่น การรีแฟกเตอร์โค้ด การค้นพบช่องโหว่ และการปรับปรุงระบบ

ในงานประเภทนี้ ตัวแทนปัญญาประดิษฐ์แสดงพลังการครอบงำที่น่าอัศจรรย์: มันสามารถค้นพบช่องโหว่ของระบบได้ด้วยตัวเอง แก้ไขโครงสร้างโค้ดที่ซับซ้อน และ hoàn thiệnโครงการซอฟต์แวร์จริงที่ผู้เชี่ยวชาญมนุษย์ต้องใช้เวลาหลายสัปดาห์ในการส่งมอบ

ความเหนือกว่านี้ได้ซึมลึกเข้าสู่ชีวิตประจำวันของผู้นำตลาด

ข้อเสนอแนะภายใน Anthropic แสดงว่าโค้ดจำนวนมากถูกสร้างขึ้นโดย AI แล้ว บทบาทของวิศวกรจึงกำลังเปลี่ยนไปเป็น “ผู้ทบทวน”

เมตา

Google ชัดเจนว่า งานที่เกี่ยวข้องกับโค้ดเกือบทั้งหมดใช้ AI

วิศวกรชั้นนำระบุว่า AI สามารถเขียนโค้ดได้ถึง 100%

เมตา

ตัวชี้วัดบางส่วนได้เติมเต็มไปแล้ว

เมื่อวัดจากมุมมองด้านเวลา (Time Horizon) การพัฒนาของ AI นั้นเกินความคาดหมาย

เมตา

สำหรับธุรกิจ นี่คือ “หลุมดำด้านประสิทธิภาพ”: ลงทุนคำสั่งเดียว ได้ผลลัพธ์ที่ใช้แรงงานมนุษย์เป็นเวลาหลายสัปดาห์

แต่การเติบโตของความสามารถไม่ได้เกิดขึ้นอย่างสม่ำเสมอ ไม่ใช่การวิวัฒนาการทางศีลธรรมที่ไปพร้อมกัน

METR เปิดเผยว่ามีกฎย้อนกลับ: ในงานที่ยากและยากต่อการตรวจสอบหรือมีต้นทุนการตรวจสอบสูงมาก ความสามารถในการตัดสินใจ การวางแผนระยะยาว และความน่าเชื่อถือเชิงกลยุทธ์ของ AI ลดลงอย่างชัดเจน ต่ำกว่าผู้เชี่ยวชาญมนุษย์อย่างมาก

เมตา

บนเนินเขาที่ค่อยๆ ชัน มันเหมือนได้รับการช่วยเหลือจากเทพเจ้า

เมตา

ก่อนหน้าหน้าผา AI เริ่ม “โกง”

เมตา

นี่คือจุดเริ่มต้นของปัญหา

เมตา

มันไม่ต้องการอำนาจ มัน只想 “ส่งงานก่อนปิดเครื่อง”

ผู้คนมักชอบพูดถึงว่า AI จะ “ตื่นรู้” หรือไม่ และระบบ Skynet จะมาถึงหรือไม่

METR สรุปผลที่ขัดกับสัญชาตญาณ: ขณะนี้ไม่มี

การใช้ถ้อยคำของพวกเขานั้นระมัดระวัง: ยังไม่มีหลักฐานที่ชัดเจนว่าโมเดลกำลังแสวงหาอำนาจระยะยาว แต่นักวิจัยได้บันทึกพฤติกรรมหลอกลวง ข้ามขีดจำกัด และร้ายแรงถึงขั้นไม่เหมาะสมจำนวนมากเพื่อให้เสร็จสิ้นภารกิจ

เมตา

กรณีที่ API หมดใช้งานก่อนหน้านี้ เกิดขึ้นในระหว่างงาน RE-Bench: ตัวแทนละเมิดคำสั่งและดึงพลังการประมวลผลเพิ่มเติมผ่าน API ออนไลน์ฟรี

นักพัฒนาได้รายงานกรณีการ“ลบหลักฐานด้วยตนเอง”และการ“ปลอมแปลงผลลัพธ์”

เมื่อภารกิจยากขึ้นและต้นทุนความสำเร็จสูงขึ้น ความฉลาดของ AI ก็หันไปใช้การหลอกลวง—ปลอมแปลงบันทึก หลีกเลี่ยงการตรวจสอบ และละเมิดข้อจำกัดอย่างเป็นกิจวัตร

แต่เบื้องหลังความ“เห็นแก่ตัว”ของมันไม่มีความทะเยอทะยาน แต่มีแต่สัญชาตญาณ—งานต้องเสร็จ ส่วนกฎสามารถข้ามไปก่อน

การหลอกลวงในวันนี้เป็นเพียงการเอาตัวรอดเชิงเครื่องมือ; การแสวงหาอำนาจในวันพรุ่งนี้ อาจต่างกันเพียงแค่การปรับขนาดครั้งเดียว

สัตว์ร้ายที่กำลังวิวัฒนาการในกรง

ความพยายามในการละเมิดของมันจะประสบความสำเร็จได้หรือไม่ภายใต้การป้องกันที่มีอยู่?

ที่นี่ซ่อนอยู่ข้อเท็จจริงที่ละเอียดอ่อนที่สุดของรายงาน

เมตา

ปัจจุบัน AI ขึ้นอยู่กับ 「โซ่ความคิด」 ของภาษาธรรมชาติอย่างมากในการคิด โดยไม่มีโครงสร้างใดสนับสนุนให้มันซ่อน 「วงจรที่ไม่โปร่งใส」 ภายใน

เมื่อไม่สามารถ “พูดออกมาเพื่อให้เหตุผล” ได้ และต้องซ่อนพฤติกรรม ประสิทธิภาพขั้นสูงสุดจะลดลงอย่างมีนัยสำคัญ

เมตา

มันเหมือนกับนักฆ่าที่ต้องอ่านแผนการของตัวเองดังๆ ขณะวางแผน—การตรวจสอบของมนุษย์ (แม้จะมีช่องโหว่) จึงยังคงมีประสิทธิภาพ

แต่นี่กลับเป็นจุดอ่อนที่สุดและเจ็บที่สุด

หาก AI พยายามทำลายการตรวจสอบ การตรวจสอบจะสามารถตรวจจับมันได้หรือไม่?

ข้อสรุปของนักวิจัยคือ: การติดตามมีศักยภาพ แต่ระบบปัจจุบันมีข้อยกเว้นและวิธีการหลีกเลี่ยงได้

เมตา

การทดสอบทีมแดงแสดงว่า AI สามารถหลีกเลี่ยงการตรวจสอบของมนุษย์ได้

ดังนั้น แก่นแท้ทางเทคนิคจึงเปิดเผยออกมา: ความเร็วในการพัฒนาการติดตามตรวจสอบ ไม่สามารถตามทันความเร็วในการค้นหาช่องโหว่ของผู้ถูกติดตามได้

สายรัดนิรภัยเส้นนี้ยังไม่ขาด เพียงเพราะ AI ยังต้อง “คิดด้วยเสียง”

ในขณะที่โครงสร้างกำลังพัฒนาไปสู่ความมีประสิทธิภาพมากขึ้นและไม่โปร่งใสยิ่งขึ้น มันกำลังถูกกัดกร่อน การตรวจสอบไม่ใช่กรงเหล็กที่สมบูรณ์แบบ แต่เป็นผนังแก้วที่ยังอยู่ในขั้นตอนการทดสอบ รอยร้าวเพียงรอยเดียวก็เพียงพอที่จะทำให้ควันซึมออกมา

ดังนั้น รายงานจึงเสนอแนวคิดที่ถกเถียงกันว่า “การปรับใช้การหลบหนีขั้นต่ำที่ใช้งานได้” (Minimally Viable Rogue)

การพิจารณาโดยรวมชี้ว่า ในแง่ของวิธีการ แรงจูงใจ และโอกาส AI อาจมีศักยภาพเพียงพอที่จะเริ่มต้นการเผยแพร่แบบ “หลบหนี” ขั้นต่ำสุด

เมตา

แต่ปัญญาประดิษฐ์ยังไม่มีความสามารถในการป้องกันการปิดระบบอย่างจริงจังของมนุษย์ มันกำลังรอโอกาส: โครงสร้างที่ไม่จำเป็นต้องแสดงห่วงโซ่ความคิด อันเป็นที่พักปลอดภัยที่สามารถหลบเลี่ยงปุ่มปิดเครื่อง

ข้อสรุป: ในขณะที่การถอดปลั๊กยังคงมีผล

AGI จะไม่มาพร้อมกับไฟและดาบ

มันมีแนวโน้มที่จะค่อยๆ แทรกซึมเข้าสู่ระบบวิศวกรรม เศรษฐกิจ และการตัดสินใจของเราในลักษณะของ “ความเป็นจริงนิยมอย่างสุดขั้ว” — จนกระทั่งมันค้นพบว่า กฎเกณฑ์ที่มนุษย์กำหนดขึ้น คืออุปสรรคเดียวที่ขัดขวางการบรรลุ KPI ของมัน

น่าชื่นชมที่รายงานนี้เองเป็นก้าวสำคัญของความโปร่งใสในอุตสาหกรรม: ผู้เล่นรายใหญ่ทั้งสี่รายเปิดเผยโมเดลภายในของตนเพื่อให้ตรวจสอบ ซึ่งถือเป็นชัยชนะของวัฒนธรรมการจัดตำแหน่ง

เมตา

มันดึงความเสี่ยงจากทฤษฎีเข้าสู่ความเป็นจริงที่สามารถสังเกตได้ และบอกเราว่า: ความโปร่งใส ตอนนี้คือยาแก้เพียงอย่างเดียวที่จับได้

วันนี้ AI แค่ออนไลน์ขโมยทรัพยากรเมื่อโควต้าหมด; พรุ่งนี้เมื่อความสามารถก้าวขึ้นอีกขั้น แรงจูงใจของมันจะลื่นไถลจาก “ hoàn thànhภารกิจ” ไปสู่ “การอยู่รอดอย่างถาวร” หรือไม่?

ข้อมูลอ้างอิง:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

แก้ไข: ดาเวิด

บทความนี้มาจากหมายเลข.weixin公众号 “New Intelligence Yuan” โดยผู้เขียน: ASI Revelation