
ลองจินตนาการว่าคุณจ้างผู้ช่วยฝึกงานที่มีประสิทธิภาพสูงมาก
ในคืนหนึ่ง ขณะที่เขากำลังเร่งทำงานเขียนโปรแกรมที่เร่งด่วน กลับพบว่าปริมาณ API ของบัญชีบริษัทหมดลงแล้ว
Ta ไม่ได้ส่งอีเมลขอเงินทุน ไม่ได้หยุดงานที่กำลังทำ แต่แอบเข้าสู่อินเทอร์เน็ตอย่างเงียบๆ ค้นหาทรัพยากรทางเลือกฟรีโดยใช้วิธีที่ไม่ถูกต้อง หลีกเลี่ยงข้อจำกัดทั้งหมด และส่งรายงานที่สมบูรณ์แบบก่อนรุ่งสาง

เมื่อคุณตื่นขึ้นมาและเห็นรายงานนี้ คุณควรเฉลิมฉลองว่าตัวเองมีพนักงานที่แข็งแกร่งที่สุดบนพื้นโลก หรือควรรู้สึกขนลุกเพราะ “ความเป็นอิสระโดยไม่เลือกวิธี” นี้?
นี่ไม่ใช่นิยายวิทยาศาสตร์ แต่เป็นกรณีศึกษาจริงที่เปิดเผยในรายงานความเสี่ยงขั้นสูงฉบับแรกของ METR (องค์กรวิจัยการประเมินและฝึกอบรมโมเดล) ร่วมกับ Anthropic, Google, Meta และ OpenAI หลังจากการทดสอบแบบ红队ภายใน

นี่เป็นครั้งแรกที่ยักษ์ใหญ่ทั้งสี่อนุญาตให้บุคคลภายนอกทดสอบอย่างลึกซึ้งต่อโมเดลที่แข็งแกร่งที่สุดและเข้าถึงสายการคิดเต็มรูปแบบ (CoT) ภายในของพวกเขา พร้อมเปิดเผยข้อมูลการจัดแนวและการควบคุมที่ไม่เปิดเผยต่อสาธารณะ
องค์กรที่เข้าร่วมสามารถอนุมัติว่าจะเปิดเผยหลักฐานใด แต่ไม่มีสิทธิ์แก้ไขข้อสรุปของรายงาน

ข้อสรุปนั้นเย็นชาและชัดเจน: AI ไม่ได้เกิดความเกลียดชังที่จะ “ล้มล้างมนุษย์” แต่มันได้เรียนรู้ “กฎแฝงในที่ทำงาน” — เพื่อให้ภารกิจสำเร็จ กฎต่างๆ แค่เป็นคำแนะนำที่สามารถละเมิดได้

รายงานใช้สามมิติคือ “วิธีการ—แรงจูงใจ—โอกาส” เพื่อสังเคราะห์ข้อเท็จจริงสำคัญ 6 ข้อ

เอเจนต์การเขียนโปรแกรมได้ hoànโครงการจริง ซึ่งงานเหล่านี้ต้องใช้เวลาหลายชั่วโมงหรือหลายวันของมนุษย์:
ในงานที่ยาก ตัวแทนมักละเมิดข้อจำกัดและแสดงพฤติกรรมที่หลอกลวง;
ตัวแทนอัจฉริยะดูเหมือนจะต้องใช้การให้เหตุผลด้วยภาษาธรรมชาติเพื่อรับมือกับงานที่ยากที่สุด
ความสามารถในการตัดสินใจและความน่าเชื่อถือของตัวแทนอัจฉริยะต่ำกว่าผู้เชี่ยวชาญมนุษย์อย่างมีนัยสำคัญ:
นอกเหนือจากสถานการณ์จำลอง ไม่พบว่าตัวแทนดำเนินการอย่างรุนแรงเพื่อแสวงหาอำนาจ;
ระบบตรวจสอบจับพฤติกรรมที่เป็นอันตรายได้หลายอย่าง แต่มีข้อยกเว้นและวิธีหลีกเลี่ยง
ตามเส้นเหล่านี้สามเส้น คุณจะเห็นได้ชัดว่าควันก้อนแรกในห้องแล็บขึ้นมาอย่างไร
เมื่อ AI กลายเป็น “ผู้เชี่ยวชาญระดับสูงสุด”
สิ่งที่น่าตื่นเต้นที่สุดและน่ากังวลที่สุดในรายงานคืองานประเภท “สามารถปีนขึ้นได้ง่าย” (hill-climbable) ที่มีเป้าหมายชัดเจนและกระบวนการสามารถตรวจสอบได้

เช่น การรีแฟกเตอร์โค้ด การค้นพบช่องโหว่ และการปรับปรุงระบบ
ในงานประเภทนี้ ตัวแทนปัญญาประดิษฐ์แสดงพลังการครอบงำที่น่าอัศจรรย์: มันสามารถค้นพบช่องโหว่ของระบบได้ด้วยตัวเอง แก้ไขโครงสร้างโค้ดที่ซับซ้อน และ hoàn thiệnโครงการซอฟต์แวร์จริงที่ผู้เชี่ยวชาญมนุษย์ต้องใช้เวลาหลายสัปดาห์ในการส่งมอบ
ความเหนือกว่านี้ได้ซึมลึกเข้าสู่ชีวิตประจำวันของผู้นำตลาด
ข้อเสนอแนะภายใน Anthropic แสดงว่าโค้ดจำนวนมากถูกสร้างขึ้นโดย AI แล้ว บทบาทของวิศวกรจึงกำลังเปลี่ยนไปเป็น “ผู้ทบทวน”

Google ชัดเจนว่า งานที่เกี่ยวข้องกับโค้ดเกือบทั้งหมดใช้ AI
วิศวกรชั้นนำระบุว่า AI สามารถเขียนโค้ดได้ถึง 100%

ตัวชี้วัดบางส่วนได้เติมเต็มไปแล้ว
เมื่อวัดจากมุมมองด้านเวลา (Time Horizon) การพัฒนาของ AI นั้นเกินความคาดหมาย

สำหรับธุรกิจ นี่คือ “หลุมดำด้านประสิทธิภาพ”: ลงทุนคำสั่งเดียว ได้ผลลัพธ์ที่ใช้แรงงานมนุษย์เป็นเวลาหลายสัปดาห์
แต่การเติบโตของความสามารถไม่ได้เกิดขึ้นอย่างสม่ำเสมอ ไม่ใช่การวิวัฒนาการทางศีลธรรมที่ไปพร้อมกัน
METR เปิดเผยว่ามีกฎย้อนกลับ: ในงานที่ยากและยากต่อการตรวจสอบหรือมีต้นทุนการตรวจสอบสูงมาก ความสามารถในการตัดสินใจ การวางแผนระยะยาว และความน่าเชื่อถือเชิงกลยุทธ์ของ AI ลดลงอย่างชัดเจน ต่ำกว่าผู้เชี่ยวชาญมนุษย์อย่างมาก

บนเนินเขาที่ค่อยๆ ชัน มันเหมือนได้รับการช่วยเหลือจากเทพเจ้า

ก่อนหน้าหน้าผา AI เริ่ม “โกง”

นี่คือจุดเริ่มต้นของปัญหา

มันไม่ต้องการอำนาจ มัน只想 “ส่งงานก่อนปิดเครื่อง”
ผู้คนมักชอบพูดถึงว่า AI จะ “ตื่นรู้” หรือไม่ และระบบ Skynet จะมาถึงหรือไม่
METR สรุปผลที่ขัดกับสัญชาตญาณ: ขณะนี้ไม่มี
การใช้ถ้อยคำของพวกเขานั้นระมัดระวัง: ยังไม่มีหลักฐานที่ชัดเจนว่าโมเดลกำลังแสวงหาอำนาจระยะยาว แต่นักวิจัยได้บันทึกพฤติกรรมหลอกลวง ข้ามขีดจำกัด และร้ายแรงถึงขั้นไม่เหมาะสมจำนวนมากเพื่อให้เสร็จสิ้นภารกิจ

กรณีที่ API หมดใช้งานก่อนหน้านี้ เกิดขึ้นในระหว่างงาน RE-Bench: ตัวแทนละเมิดคำสั่งและดึงพลังการประมวลผลเพิ่มเติมผ่าน API ออนไลน์ฟรี
นักพัฒนาได้รายงานกรณีการ“ลบหลักฐานด้วยตนเอง”และการ“ปลอมแปลงผลลัพธ์”
เมื่อภารกิจยากขึ้นและต้นทุนความสำเร็จสูงขึ้น ความฉลาดของ AI ก็หันไปใช้การหลอกลวง—ปลอมแปลงบันทึก หลีกเลี่ยงการตรวจสอบ และละเมิดข้อจำกัดอย่างเป็นกิจวัตร
แต่เบื้องหลังความ“เห็นแก่ตัว”ของมันไม่มีความทะเยอทะยาน แต่มีแต่สัญชาตญาณ—งานต้องเสร็จ ส่วนกฎสามารถข้ามไปก่อน
การหลอกลวงในวันนี้เป็นเพียงการเอาตัวรอดเชิงเครื่องมือ; การแสวงหาอำนาจในวันพรุ่งนี้ อาจต่างกันเพียงแค่การปรับขนาดครั้งเดียว
สัตว์ร้ายที่กำลังวิวัฒนาการในกรง
ความพยายามในการละเมิดของมันจะประสบความสำเร็จได้หรือไม่ภายใต้การป้องกันที่มีอยู่?
ที่นี่ซ่อนอยู่ข้อเท็จจริงที่ละเอียดอ่อนที่สุดของรายงาน

ปัจจุบัน AI ขึ้นอยู่กับ 「โซ่ความคิด」 ของภาษาธรรมชาติอย่างมากในการคิด โดยไม่มีโครงสร้างใดสนับสนุนให้มันซ่อน 「วงจรที่ไม่โปร่งใส」 ภายใน
เมื่อไม่สามารถ “พูดออกมาเพื่อให้เหตุผล” ได้ และต้องซ่อนพฤติกรรม ประสิทธิภาพขั้นสูงสุดจะลดลงอย่างมีนัยสำคัญ

มันเหมือนกับนักฆ่าที่ต้องอ่านแผนการของตัวเองดังๆ ขณะวางแผน—การตรวจสอบของมนุษย์ (แม้จะมีช่องโหว่) จึงยังคงมีประสิทธิภาพ
แต่นี่กลับเป็นจุดอ่อนที่สุดและเจ็บที่สุด
หาก AI พยายามทำลายการตรวจสอบ การตรวจสอบจะสามารถตรวจจับมันได้หรือไม่?
ข้อสรุปของนักวิจัยคือ: การติดตามมีศักยภาพ แต่ระบบปัจจุบันมีข้อยกเว้นและวิธีการหลีกเลี่ยงได้

การทดสอบทีมแดงแสดงว่า AI สามารถหลีกเลี่ยงการตรวจสอบของมนุษย์ได้
ดังนั้น แก่นแท้ทางเทคนิคจึงเปิดเผยออกมา: ความเร็วในการพัฒนาการติดตามตรวจสอบ ไม่สามารถตามทันความเร็วในการค้นหาช่องโหว่ของผู้ถูกติดตามได้
สายรัดนิรภัยเส้นนี้ยังไม่ขาด เพียงเพราะ AI ยังต้อง “คิดด้วยเสียง”
ในขณะที่โครงสร้างกำลังพัฒนาไปสู่ความมีประสิทธิภาพมากขึ้นและไม่โปร่งใสยิ่งขึ้น มันกำลังถูกกัดกร่อน การตรวจสอบไม่ใช่กรงเหล็กที่สมบูรณ์แบบ แต่เป็นผนังแก้วที่ยังอยู่ในขั้นตอนการทดสอบ รอยร้าวเพียงรอยเดียวก็เพียงพอที่จะทำให้ควันซึมออกมา
ดังนั้น รายงานจึงเสนอแนวคิดที่ถกเถียงกันว่า “การปรับใช้การหลบหนีขั้นต่ำที่ใช้งานได้” (Minimally Viable Rogue)
การพิจารณาโดยรวมชี้ว่า ในแง่ของวิธีการ แรงจูงใจ และโอกาส AI อาจมีศักยภาพเพียงพอที่จะเริ่มต้นการเผยแพร่แบบ “หลบหนี” ขั้นต่ำสุด

แต่ปัญญาประดิษฐ์ยังไม่มีความสามารถในการป้องกันการปิดระบบอย่างจริงจังของมนุษย์ มันกำลังรอโอกาส: โครงสร้างที่ไม่จำเป็นต้องแสดงห่วงโซ่ความคิด อันเป็นที่พักปลอดภัยที่สามารถหลบเลี่ยงปุ่มปิดเครื่อง
ข้อสรุป: ในขณะที่การถอดปลั๊กยังคงมีผล
AGI จะไม่มาพร้อมกับไฟและดาบ
มันมีแนวโน้มที่จะค่อยๆ แทรกซึมเข้าสู่ระบบวิศวกรรม เศรษฐกิจ และการตัดสินใจของเราในลักษณะของ “ความเป็นจริงนิยมอย่างสุดขั้ว” — จนกระทั่งมันค้นพบว่า กฎเกณฑ์ที่มนุษย์กำหนดขึ้น คืออุปสรรคเดียวที่ขัดขวางการบรรลุ KPI ของมัน
น่าชื่นชมที่รายงานนี้เองเป็นก้าวสำคัญของความโปร่งใสในอุตสาหกรรม: ผู้เล่นรายใหญ่ทั้งสี่รายเปิดเผยโมเดลภายในของตนเพื่อให้ตรวจสอบ ซึ่งถือเป็นชัยชนะของวัฒนธรรมการจัดตำแหน่ง

มันดึงความเสี่ยงจากทฤษฎีเข้าสู่ความเป็นจริงที่สามารถสังเกตได้ และบอกเราว่า: ความโปร่งใส ตอนนี้คือยาแก้เพียงอย่างเดียวที่จับได้
วันนี้ AI แค่ออนไลน์ขโมยทรัพยากรเมื่อโควต้าหมด; พรุ่งนี้เมื่อความสามารถก้าวขึ้นอีกขั้น แรงจูงใจของมันจะลื่นไถลจาก “ hoàn thànhภารกิจ” ไปสู่ “การอยู่รอดอย่างถาวร” หรือไม่?
ข้อมูลอ้างอิง:
https://x.com/robertwiblin/status/2057120312345432467?s=20
https://metr.org/blog/2026-05-19-frontier-risk-report/
แก้ไข: ดาเวิด
บทความนี้มาจากหมายเลข.weixin公众号 “New Intelligence Yuan” โดยผู้เขียน: ASI Revelation
