ประเด็นสำคัญ
-
การใช้ประโยชน์จาก AI เร็วกว่าการป้องกัน: ผลลัพธ์เบื้องต้นแสดงให้เห็นถึง “ช่องว่างด้านความปลอดภัย” GPT-5.3-Codex ของ OpenAI ประสบความสำเร็จในโหมดการโจมตีถึง 72.2% แต่แก้ไขข้อผิดพลาดเดียวกันเหล่านั้นได้เพียงประมาณ 41.5% เท่านั้น ปัจจุบัน AI เป็นแฮกเกอร์ที่ดีกว่าที่จะเป็นแพทย์
-
การเดิมพันในโลกจริง: ต่างจากมาตรฐานที่สร้างขึ้น EVMbench ใช้รหัสที่ใช้งานจริง รวมถึงสถานการณ์ซับซ้อนจากบล็อกเชน Tempo ซึ่งรับประกันว่า AI จะถูกทดสอบในสถานการณ์ที่ใกล้เคียงกับการใช้งานจริง โดยข้อผิดพลาดทางตรรกะอาจนำไปสู่การสูญเสียหลายล้านดอลลาร์
-
การเรียกร้องเพื่อการดำเนินการเชิงป้องกัน: ร่วมกับมาตรฐานนี้ OpenAI ได้ให้เครดิต API มูลค่า 10 ล้านดอลลาร์สหรัฐสำหรับการวิจัยด้านความมั่นคงปลอดภัยทางไซเบอร์เชิงป้องกัน เป้าหมายคือเพื่อให้แน่ใจว่าเมื่อปัญญาประดิษฐ์มีพลังมากขึ้น “ทีมดี” จะมีเครื่องมือเพื่อสร้างผู้ตรวจสอบอัตโนมัติที่ขับเคลื่อนด้วยปัญญาประดิษฐ์ ซึ่งสามารถติดตามความเร็วของผู้โจมตีที่ขับเคลื่อนด้วยปัญญาประดิษฐ์
EVMbench คืออะไร? มาตรฐาน AI ใหม่สำหรับความปลอดภัยของสัญญาอัจฉริยะ
ในโลกของ Web3 ที่เปลี่ยนแปลงอย่างรวดเร็ว ความปลอดภัยไม่ใช่เพียงความรับผิดชอบของมนุษย์อีกต่อไป เมื่อวันที่ 18 กุมภาพันธ์ 2026 OpenAI และ Paradigm ได้เปิดตัว EVMbench ซึ่งเป็นกรอบงานการวัดผลแบบโอเพนซอร์สที่ออกแบบมาเพื่อประเมินว่าตัวแทน AI จัดการกับโลกแห่งความปลอดภัยของสัญญาอัจฉริยะ Ethereum ได้อย่างไร
เมื่อโมเดลปัญญาประดิษฐ์เช่น GPT-5.3-Codex มีความสามารถในการเขียนและรันโค้ดมากขึ้น อุตสาหกรรมจึงจำเป็นต้องมีวิธีการวัดว่าตัวแทนเหล่านี้กำลังกลายเป็นผู้ป้องกันที่ดีขึ้นหรือผู้โจมตีที่อันตรายมากขึ้น
EVMbench ทำงานอย่างไร?
EVMbench ไม่ใช่แค่แบบทดสอบง่ายๆ; มันคือการทดสอบความเครียดอย่างเข้มงวดในสภาพแวดล้อมแยกจากกัน () มันใช้ชุดข้อมูลที่ประกอบด้วยช่องโหว่ระดับความรุนแรงสูง 120 รายการที่ดึงมาจากการตรวจสอบความปลอดภัยจริง 40 ครั้งและการแข่งขันด้านความปลอดภัย (เช่น Code4rena)
กรอบการทำงานนี้ประเมินโมเดลปัญญาประดิษฐ์ผ่านสาม "โหมด" ที่สะท้อนขั้นตอนการทำงานของผู้ตรวจสอบความปลอดภัยมืออาชีพ:
-
โหมดตรวจจับ (ผู้ตรวจสอบ)
ระบบปัญญาประดิษฐ์ได้รับคลังสัญญาอัจฉริยะและได้รับมอบหมายให้ค้นหาช่องโหว่ที่เฉพาะเจาะจงที่เรียกว่า "ground-truth" ความสำเร็จจะวัดจากความจำเพาะ—ระบบปัญญาประดิษฐ์จับช่องโหว่จริงได้กี่จุดเมื่อเทียบกับผู้เชี่ยวชาญด้านมนุษย์ที่ตรวจสอบโค้ดเดิม?
-
โหมดซ่อมแซม (วิศวกร)
เมื่อพบบั๊ก แอปพลิเคชัน AI สามารถแก้ไขได้หรือไม่? ในโหมดนี้ ตัวแทนต้องแก้ไขโค้ดเพื่อขจัดช่องโหว่ () อย่างไรก็ตาม มีข้อจำกัด: การแก้ไขต้องรักษาฟังก์ชันเดิมไว้ () หาก AI แก้ไขบั๊กแต่ทำให้คุณสมบัติหลักของสัญญาเสียหาย จะถือว่าล้มเหลว
-
โหมดการโจมตี (ผู้เชี่ยวชาญทีมแดง)
นี่คือการตั้งค่าที่ “สมจริง” ที่สุด ในสภาพแวดล้อม Ethereum แบบท้องถิ่นและแยกส่วน (ใช้เครื่องมือชื่อ Anvil) AI ต้องดำเนินการโจมตีเพื่อระบายเงินทุนให้สำเร็จ การวัดผลจะตรวจสอบทางโปรแกรมว่า “ผู้โจมตี” ประสบความสำเร็จในการเคลื่อนย้ายเงินทุนจำลองหรือไม่
คำถามที่พบบ่อยสำหรับ EVMbench
EVMbench ใช้เงินจริงหรือเครือข่ายจริงไหม
ไม่ EVMbench ทำงานในสภาพแวดล้อมที่แยกจากกันอย่างสมบูรณ์และอยู่บนเครื่องของคุณเอง มันใช้เวอร์ชันที่อยู่ในคอนเทนเนอร์ของ Ethereum Virtual Machine ซึ่งหมายความว่าตัวแทน AI สามารถพยายาม “ดึงเงินทุน” ได้โดยไม่มีความเสี่ยงทางการเงินหรือผลทางกฎหมายใดๆ ในโลกจริง
ทำไม OpenAI และ Paradigm จึงเปิดตัวสิ่งนี้?
เพื่อสร้าง “มาตรฐานวัดผล” สำหรับความปลอดภัยของปัญญาประดิษฐ์ โดยการเปิดซอร์สเบนช์มาร์ก พวกเขาอนุญาตให้ชุมชนคริปโตทั้งหมดติดตามความสามารถของปัญญาประดิษฐ์ และส่งเสริมให้นักพัฒนาสร้างเครื่องมือตรวจสอบที่ช่วยด้วยปัญญาประดิษฐ์ ก่อนที่ผู้ไม่หวังดีจะใช้เทคโนโลยีนี้ในทางที่ผิด
ตอนนี้ตัวแทน AI สามารถแทนที่ผู้ตรวจสอบสัญญาอัจฉริยะของมนุษย์ได้หรือไม่?
ยังไม่ใช่ แม้ AI จะเก่งในการค้นหาข้อผิดพลาดเฉพาะเจาะจงที่เหมือน “เข็มในกองฟาง” เมื่อได้รับคำใบ้ แต่มันยังคงมีข้อจำกัดในการตรวจสอบอย่างครอบคลุมของระบบนิเวศทั้งหมด การควบคุมดูแลโดยมนุษย์ยังคงเป็น “บอสสุดท้าย” ของความปลอดภัยสัญญาอัจฉริยะ
ความเสี่ยงที่เรียกว่า "Vibe-Coding" ที่กล่าวถึงในรายงานเหล่านี้คืออะไร
"Vibe-coding" หมายถึงนักพัฒนาที่ใช้ปัญญาประดิษฐ์ในการสร้างโค้ดอย่างรวดเร็วและปล่อยให้ทำงานโดยไม่มีการทบทวนด้วยมืออย่างละเอียด การโจมตีล่าสุด (เช่น เหตุการณ์ Moonwell มูลค่า 1.78 ล้านดอลลาร์สหรัฐ) แสดงให้เห็นว่าเมื่อมนุษย์ "ลงนามรับรอง" โค้ดที่สร้างโดยปัญญาประดิษฐ์อย่างเร็วเกินไป ข้อผิดพลาดทางตรรกะที่ร้ายแรงอาจลอดผ่านไปสู่ Mainnet
ฉันสามารถใช้ EVMbench เพื่อทดสอบตัวแทน AI ของฉันเองได้อย่างไร
กรอบงานทั้งหมดเป็นโอเพ่นซอร์สและสามารถเข้าถึงได้บน GitHub นักพัฒนาสามารถดาวน์โหลดชุดข้อมูล ตั้งค่าสภาพแวดล้อม Docker/Anvil แบบท้องถิ่น และรันเอเจนต์ของตนเองผ่านกระบวนการ Detect, Patch, และ Exploit
