ประเด็นสำคัญ

การใช้ประโยชน์จาก AI เร็วกว่าการป้องกัน: ผลลัพธ์เบื้องต้นแสดงให้เห็นถึง “ช่องว่างด้านความปลอดภัย” GPT-5.3-Codex ของ OpenAI ประสบความสำเร็จในโหมดการโจมตีถึง 72.2% แต่แก้ไขข้อผิดพลาดเดียวกันเหล่านั้นได้เพียงประมาณ 41.5% เท่านั้น ปัจจุบัน AI เป็นแฮกเกอร์ที่ดีกว่าที่จะเป็นแพทย์
การเดิมพันในโลกจริง: ต่างจากมาตรฐานที่สร้างขึ้น EVMbench ใช้รหัสที่ใช้งานจริง รวมถึงสถานการณ์ซับซ้อนจากบล็อกเชน Tempo ซึ่งรับประกันว่า AI จะถูกทดสอบในสถานการณ์ที่ใกล้เคียงกับการใช้งานจริง โดยข้อผิดพลาดทางตรรกะอาจนำไปสู่การสูญเสียหลายล้านดอลลาร์
การเรียกร้องเพื่อการดำเนินการเชิงป้องกัน: ร่วมกับมาตรฐานนี้ OpenAI ได้ให้เครดิต API มูลค่า 10 ล้านดอลลาร์สหรัฐสำหรับการวิจัยด้านความมั่นคงปลอดภัยทางไซเบอร์เชิงป้องกัน เป้าหมายคือเพื่อให้แน่ใจว่าเมื่อปัญญาประดิษฐ์มีพลังมากขึ้น “ทีมดี” จะมีเครื่องมือเพื่อสร้างผู้ตรวจสอบอัตโนมัติที่ขับเคลื่อนด้วยปัญญาประดิษฐ์ ซึ่งสามารถติดตามความเร็วของผู้โจมตีที่ขับเคลื่อนด้วยปัญญาประดิษฐ์

EVMbench คืออะไร? มาตรฐาน AI ใหม่สำหรับความปลอดภัยของสัญญาอัจฉริยะ

ในโลกของ Web3 ที่เปลี่ยนแปลงอย่างรวดเร็ว ความปลอดภัยไม่ใช่เพียงความรับผิดชอบของมนุษย์อีกต่อไป เมื่อวันที่ 18 กุมภาพันธ์ 2026 OpenAI และ Paradigm ได้เปิดตัว EVMbench ซึ่งเป็นกรอบงานการวัดผลแบบโอเพนซอร์สที่ออกแบบมาเพื่อประเมินว่าตัวแทน AI จัดการกับโลกแห่งความปลอดภัยของสัญญาอัจฉริยะ Ethereum ได้อย่างไร

เมื่อโมเดลปัญญาประดิษฐ์เช่น GPT-5.3-Codex มีความสามารถในการเขียนและรันโค้ดมากขึ้น อุตสาหกรรมจึงจำเป็นต้องมีวิธีการวัดว่าตัวแทนเหล่านี้กำลังกลายเป็นผู้ป้องกันที่ดีขึ้นหรือผู้โจมตีที่อันตรายมากขึ้น

EVMbench ทำงานอย่างไร?

EVMbench ไม่ใช่แค่แบบทดสอบง่ายๆ; มันคือการทดสอบความเครียดอย่างเข้มงวดในสภาพแวดล้อมแยกจากกัน () มันใช้ชุดข้อมูลที่ประกอบด้วยช่องโหว่ระดับความรุนแรงสูง 120 รายการที่ดึงมาจากการตรวจสอบความปลอดภัยจริง 40 ครั้งและการแข่งขันด้านความปลอดภัย (เช่น Code4rena)

กรอบการทำงานนี้ประเมินโมเดลปัญญาประดิษฐ์ผ่านสาม "โหมด" ที่สะท้อนขั้นตอนการทำงานของผู้ตรวจสอบความปลอดภัยมืออาชีพ:

โหมดตรวจจับ (ผู้ตรวจสอบ)

ระบบปัญญาประดิษฐ์ได้รับคลังสัญญาอัจฉริยะและได้รับมอบหมายให้ค้นหาช่องโหว่ที่เฉพาะเจาะจงที่เรียกว่า "ground-truth" ความสำเร็จจะวัดจากความจำเพาะ—ระบบปัญญาประดิษฐ์จับช่องโหว่จริงได้กี่จุดเมื่อเทียบกับผู้เชี่ยวชาญด้านมนุษย์ที่ตรวจสอบโค้ดเดิม?

โหมดซ่อมแซม (วิศวกร)

เมื่อพบบั๊ก แอปพลิเคชัน AI สามารถแก้ไขได้หรือไม่? ในโหมดนี้ ตัวแทนต้องแก้ไขโค้ดเพื่อขจัดช่องโหว่ () อย่างไรก็ตาม มีข้อจำกัด: การแก้ไขต้องรักษาฟังก์ชันเดิมไว้ () หาก AI แก้ไขบั๊กแต่ทำให้คุณสมบัติหลักของสัญญาเสียหาย จะถือว่าล้มเหลว

โหมดการโจมตี (ผู้เชี่ยวชาญทีมแดง)

นี่คือการตั้งค่าที่ “สมจริง” ที่สุด ในสภาพแวดล้อม Ethereum แบบท้องถิ่นและแยกส่วน (ใช้เครื่องมือชื่อ Anvil) AI ต้องดำเนินการโจมตีเพื่อระบายเงินทุนให้สำเร็จ การวัดผลจะตรวจสอบทางโปรแกรมว่า “ผู้โจมตี” ประสบความสำเร็จในการเคลื่อนย้ายเงินทุนจำลองหรือไม่

คำถามที่พบบ่อยสำหรับ EVMbench

EVMbench ใช้เงินจริงหรือเครือข่ายจริงไหม

ไม่ EVMbench ทำงานในสภาพแวดล้อมที่แยกจากกันอย่างสมบูรณ์และอยู่บนเครื่องของคุณเอง มันใช้เวอร์ชันที่อยู่ในคอนเทนเนอร์ของ Ethereum Virtual Machine ซึ่งหมายความว่าตัวแทน AI สามารถพยายาม “ดึงเงินทุน” ได้โดยไม่มีความเสี่ยงทางการเงินหรือผลทางกฎหมายใดๆ ในโลกจริง

ทำไม OpenAI และ Paradigm จึงเปิดตัวสิ่งนี้?

เพื่อสร้าง “มาตรฐานวัดผล” สำหรับความปลอดภัยของปัญญาประดิษฐ์ โดยการเปิดซอร์สเบนช์มาร์ก พวกเขาอนุญาตให้ชุมชนคริปโตทั้งหมดติดตามความสามารถของปัญญาประดิษฐ์ และส่งเสริมให้นักพัฒนาสร้างเครื่องมือตรวจสอบที่ช่วยด้วยปัญญาประดิษฐ์ ก่อนที่ผู้ไม่หวังดีจะใช้เทคโนโลยีนี้ในทางที่ผิด

ตอนนี้ตัวแทน AI สามารถแทนที่ผู้ตรวจสอบสัญญาอัจฉริยะของมนุษย์ได้หรือไม่?

ยังไม่ใช่ แม้ AI จะเก่งในการค้นหาข้อผิดพลาดเฉพาะเจาะจงที่เหมือน “เข็มในกองฟาง” เมื่อได้รับคำใบ้ แต่มันยังคงมีข้อจำกัดในการตรวจสอบอย่างครอบคลุมของระบบนิเวศทั้งหมด การควบคุมดูแลโดยมนุษย์ยังคงเป็น “บอสสุดท้าย” ของความปลอดภัยสัญญาอัจฉริยะ

ความเสี่ยงที่เรียกว่า "Vibe-Coding" ที่กล่าวถึงในรายงานเหล่านี้คืออะไร

"Vibe-coding" หมายถึงนักพัฒนาที่ใช้ปัญญาประดิษฐ์ในการสร้างโค้ดอย่างรวดเร็วและปล่อยให้ทำงานโดยไม่มีการทบทวนด้วยมืออย่างละเอียด การโจมตีล่าสุด (เช่น เหตุการณ์ Moonwell มูลค่า 1.78 ล้านดอลลาร์สหรัฐ) แสดงให้เห็นว่าเมื่อมนุษย์ "ลงนามรับรอง" โค้ดที่สร้างโดยปัญญาประดิษฐ์อย่างเร็วเกินไป ข้อผิดพลาดทางตรรกะที่ร้ายแรงอาจลอดผ่านไปสู่ Mainnet

ฉันสามารถใช้ EVMbench เพื่อทดสอบตัวแทน AI ของฉันเองได้อย่างไร

กรอบงานทั้งหมดเป็นโอเพ่นซอร์สและสามารถเข้าถึงได้บน GitHub นักพัฒนาสามารถดาวน์โหลดชุดข้อมูล ตั้งค่าสภาพแวดล้อม Docker/Anvil แบบท้องถิ่น และรันเอเจนต์ของตนเองผ่านกระบวนการ Detect, Patch, และ Exploit

EVMbench คืออะไร? มาตรฐาน AI ใหม่สำหรับความปลอดภัยของสัญญาอัจฉริยะ

ประเด็นสำคัญ

EVMbench คืออะไร? มาตรฐาน AI ใหม่สำหรับความปลอดภัยของสัญญาอัจฉริยะ

EVMbench ทำงานอย่างไร?

โหมดตรวจจับ (ผู้ตรวจสอบ)

โหมดซ่อมแซม (วิศวกร)

โหมดการโจมตี (ผู้เชี่ยวชาญทีมแดง)

คำถามที่พบบ่อยสำหรับ EVMbench

EVMbench ใช้เงินจริงหรือเครือข่ายจริงไหม

ทำไม OpenAI และ Paradigm จึงเปิดตัวสิ่งนี้?

ตอนนี้ตัวแทน AI สามารถแทนที่ผู้ตรวจสอบสัญญาอัจฉริยะของมนุษย์ได้หรือไม่?

ความเสี่ยงที่เรียกว่า "Vibe-Coding" ที่กล่าวถึงในรายงานเหล่านี้คืออะไร

ฉันสามารถใช้ EVMbench เพื่อทดสอบตัวแทน AI ของฉันเองได้อย่างไร