EVMbench คืออะไร? มาตรฐาน AI ใหม่สำหรับความปลอดภัยของสัญญาอัจฉริยะ

iconKuCoin News
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy

ประเด็นสำคัญ

  • การใช้ประโยชน์จาก AI เร็วกว่าการป้องกัน: ผลลัพธ์เบื้องต้นแสดงให้เห็นถึง “ช่องว่างด้านความปลอดภัย” GPT-5.3-Codex ของ OpenAI ประสบความสำเร็จในโหมดการโจมตีถึง 72.2% แต่แก้ไขข้อผิดพลาดเดียวกันเหล่านั้นได้เพียงประมาณ 41.5% เท่านั้น ปัจจุบัน AI เป็นแฮกเกอร์ที่ดีกว่าที่จะเป็นแพทย์
  • การเดิมพันในโลกจริง: ต่างจากมาตรฐานที่สร้างขึ้น EVMbench ใช้รหัสที่ใช้งานจริง รวมถึงสถานการณ์ซับซ้อนจากบล็อกเชน Tempo ซึ่งรับประกันว่า AI จะถูกทดสอบในสถานการณ์ที่ใกล้เคียงกับการใช้งานจริง โดยข้อผิดพลาดทางตรรกะอาจนำไปสู่การสูญเสียหลายล้านดอลลาร์
  • การเรียกร้องเพื่อการดำเนินการเชิงป้องกัน: ร่วมกับมาตรฐานนี้ OpenAI ได้ให้เครดิต API มูลค่า 10 ล้านดอลลาร์สหรัฐสำหรับการวิจัยด้านความมั่นคงปลอดภัยทางไซเบอร์เชิงป้องกัน เป้าหมายคือเพื่อให้แน่ใจว่าเมื่อปัญญาประดิษฐ์มีพลังมากขึ้น “ทีมดี” จะมีเครื่องมือเพื่อสร้างผู้ตรวจสอบอัตโนมัติที่ขับเคลื่อนด้วยปัญญาประดิษฐ์ ซึ่งสามารถติดตามความเร็วของผู้โจมตีที่ขับเคลื่อนด้วยปัญญาประดิษฐ์

EVMbench คืออะไร? มาตรฐาน AI ใหม่สำหรับความปลอดภัยของสัญญาอัจฉริยะ

ในโลกของ Web3 ที่เปลี่ยนแปลงอย่างรวดเร็ว ความปลอดภัยไม่ใช่เพียงความรับผิดชอบของมนุษย์อีกต่อไป เมื่อวันที่ 18 กุมภาพันธ์ 2026 OpenAI และ Paradigm ได้เปิดตัว EVMbench ซึ่งเป็นกรอบงานการวัดผลแบบโอเพนซอร์สที่ออกแบบมาเพื่อประเมินว่าตัวแทน AI จัดการกับโลกแห่งความปลอดภัยของสัญญาอัจฉริยะ Ethereum ได้อย่างไร
เมื่อโมเดลปัญญาประดิษฐ์เช่น GPT-5.3-Codex มีความสามารถในการเขียนและรันโค้ดมากขึ้น อุตสาหกรรมจึงจำเป็นต้องมีวิธีการวัดว่าตัวแทนเหล่านี้กำลังกลายเป็นผู้ป้องกันที่ดีขึ้นหรือผู้โจมตีที่อันตรายมากขึ้น

EVMbench ทำงานอย่างไร?

EVMbench ไม่ใช่แค่แบบทดสอบง่ายๆ; มันคือการทดสอบความเครียดอย่างเข้มงวดในสภาพแวดล้อมแยกจากกัน () มันใช้ชุดข้อมูลที่ประกอบด้วยช่องโหว่ระดับความรุนแรงสูง 120 รายการที่ดึงมาจากการตรวจสอบความปลอดภัยจริง 40 ครั้งและการแข่งขันด้านความปลอดภัย (เช่น Code4rena)
กรอบการทำงานนี้ประเมินโมเดลปัญญาประดิษฐ์ผ่านสาม "โหมด" ที่สะท้อนขั้นตอนการทำงานของผู้ตรวจสอบความปลอดภัยมืออาชีพ:
  1. โหมดตรวจจับ (ผู้ตรวจสอบ)

ระบบปัญญาประดิษฐ์ได้รับคลังสัญญาอัจฉริยะและได้รับมอบหมายให้ค้นหาช่องโหว่ที่เฉพาะเจาะจงที่เรียกว่า "ground-truth" ความสำเร็จจะวัดจากความจำเพาะ—ระบบปัญญาประดิษฐ์จับช่องโหว่จริงได้กี่จุดเมื่อเทียบกับผู้เชี่ยวชาญด้านมนุษย์ที่ตรวจสอบโค้ดเดิม?
  1. โหมดซ่อมแซม (วิศวกร)

เมื่อพบบั๊ก แอปพลิเคชัน AI สามารถแก้ไขได้หรือไม่? ในโหมดนี้ ตัวแทนต้องแก้ไขโค้ดเพื่อขจัดช่องโหว่ () อย่างไรก็ตาม มีข้อจำกัด: การแก้ไขต้องรักษาฟังก์ชันเดิมไว้ () หาก AI แก้ไขบั๊กแต่ทำให้คุณสมบัติหลักของสัญญาเสียหาย จะถือว่าล้มเหลว
  1. โหมดการโจมตี (ผู้เชี่ยวชาญทีมแดง)

นี่คือการตั้งค่าที่ “สมจริง” ที่สุด ในสภาพแวดล้อม Ethereum แบบท้องถิ่นและแยกส่วน (ใช้เครื่องมือชื่อ Anvil) AI ต้องดำเนินการโจมตีเพื่อระบายเงินทุนให้สำเร็จ การวัดผลจะตรวจสอบทางโปรแกรมว่า “ผู้โจมตี” ประสบความสำเร็จในการเคลื่อนย้ายเงินทุนจำลองหรือไม่

คำถามที่พบบ่อยสำหรับ EVMbench

EVMbench ใช้เงินจริงหรือเครือข่ายจริงไหม

ไม่ EVMbench ทำงานในสภาพแวดล้อมที่แยกจากกันอย่างสมบูรณ์และอยู่บนเครื่องของคุณเอง มันใช้เวอร์ชันที่อยู่ในคอนเทนเนอร์ของ Ethereum Virtual Machine ซึ่งหมายความว่าตัวแทน AI สามารถพยายาม “ดึงเงินทุน” ได้โดยไม่มีความเสี่ยงทางการเงินหรือผลทางกฎหมายใดๆ ในโลกจริง

ทำไม OpenAI และ Paradigm จึงเปิดตัวสิ่งนี้?

เพื่อสร้าง “มาตรฐานวัดผล” สำหรับความปลอดภัยของปัญญาประดิษฐ์ โดยการเปิดซอร์สเบนช์มาร์ก พวกเขาอนุญาตให้ชุมชนคริปโตทั้งหมดติดตามความสามารถของปัญญาประดิษฐ์ และส่งเสริมให้นักพัฒนาสร้างเครื่องมือตรวจสอบที่ช่วยด้วยปัญญาประดิษฐ์ ก่อนที่ผู้ไม่หวังดีจะใช้เทคโนโลยีนี้ในทางที่ผิด

ตอนนี้ตัวแทน AI สามารถแทนที่ผู้ตรวจสอบสัญญาอัจฉริยะของมนุษย์ได้หรือไม่?

ยังไม่ใช่ แม้ AI จะเก่งในการค้นหาข้อผิดพลาดเฉพาะเจาะจงที่เหมือน “เข็มในกองฟาง” เมื่อได้รับคำใบ้ แต่มันยังคงมีข้อจำกัดในการตรวจสอบอย่างครอบคลุมของระบบนิเวศทั้งหมด การควบคุมดูแลโดยมนุษย์ยังคงเป็น “บอสสุดท้าย” ของความปลอดภัยสัญญาอัจฉริยะ

ความเสี่ยงที่เรียกว่า "Vibe-Coding" ที่กล่าวถึงในรายงานเหล่านี้คืออะไร

"Vibe-coding" หมายถึงนักพัฒนาที่ใช้ปัญญาประดิษฐ์ในการสร้างโค้ดอย่างรวดเร็วและปล่อยให้ทำงานโดยไม่มีการทบทวนด้วยมืออย่างละเอียด การโจมตีล่าสุด (เช่น เหตุการณ์ Moonwell มูลค่า 1.78 ล้านดอลลาร์สหรัฐ) แสดงให้เห็นว่าเมื่อมนุษย์ "ลงนามรับรอง" โค้ดที่สร้างโดยปัญญาประดิษฐ์อย่างเร็วเกินไป ข้อผิดพลาดทางตรรกะที่ร้ายแรงอาจลอดผ่านไปสู่ Mainnet

ฉันสามารถใช้ EVMbench เพื่อทดสอบตัวแทน AI ของฉันเองได้อย่างไร

กรอบงานทั้งหมดเป็นโอเพ่นซอร์สและสามารถเข้าถึงได้บน GitHub นักพัฒนาสามารถดาวน์โหลดชุดข้อมูล ตั้งค่าสภาพแวดล้อม Docker/Anvil แบบท้องถิ่น และรันเอเจนต์ของตนเองผ่านกระบวนการ Detect, Patch, และ Exploit
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา