Những điểm chính

Khai thác AI vượt trội hơn phòng thủ: Các kết quả ban đầu cho thấy một “khoảng cách bảo mật.” GPT-5.3-Codex của OpenAI đạt tỷ lệ thành công ấn tượng 72,2% ở chế độ khai thác, nhưng chỉ sửa đúng khoảng 41,5% số lỗi đó. Hiện tại, AI là một hacker giỏi hơn là một bác sĩ.
Các mức đặt cược thực tế: Khác với các chỉ số tổng hợp, EVMbench sử dụng mã cấp sản xuất, bao gồm các kịch bản phức tạp từ blockchain Tempo. Điều này đảm bảo rằng AI đang được kiểm tra trên các tình huống "thực chiến" nơi các lỗi logic có thể dẫn đến tổn thất hàng triệu đô la.
Một lời kêu gọi hành động mang tính phòng thủ: Cùng với tiêu chuẩn, OpenAI đã cam kết 10 triệu đô la Mỹ tín dụng API cho nghiên cứu an ninh mạng phòng thủ. Mục tiêu là đảm bảo rằng khi AI trở nên mạnh mẽ hơn, những “người tốt” sẽ có các công cụ để xây dựng các hệ thống kiểm toán tự động dựa trên AI, có thể theo kịp các kẻ tấn công sử dụng AI.

EVMbench là gì? Chuẩn AI mới cho bảo mật hợp đồng thông minh

Trong thế giới Web3 đang phát triển nhanh chóng, bảo mật không còn chỉ là nỗ lực của con người. Vào ngày 18 tháng 2 năm 2026, OpenAI và Paradigm đã công bố ra mắt EVMbench, một khung đánh giá mã nguồn mở được thiết kế để đánh giá cách các tác nhân AI xử lý thế giới đầy rủi ro của bảo mật hợp đồng thông minh ethereum.

Khi các mô hình AI như GPT-5.3-Codex ngày càng có khả năng viết và thực thi mã, ngành công nghiệp cần một cách để đo lường xem các tác nhân này đang trở thành những người bảo vệ tốt hơn hay những kẻ tấn công nguy hiểm hơn.

EVMbench hoạt động như thế nào?

EVMbench không chỉ là một bài trắc nghiệm đơn giản; nó là một bài kiểm tra áp lực nghiêm ngặt trong môi trường cách ly.() Nó sử dụng bộ dữ liệu gồm 120 lỗ hổng nghiêm trọng được lấy từ 40 cuộc kiểm toán và cuộc thi bảo mật thực tế (như Code4rena).

Khung đánh giá các mô hình AI trên ba "Chế độ" khác nhau phản ánh quy trình làm việc của một chuyên gia kiểm toán bảo mật chuyên nghiệp:

Chế độ Phát hiện (Người kiểm toán)

AI được cung cấp một kho lưu trữ hợp đồng thông minh và được giao nhiệm vụ tìm kiếm các lỗ hổng "ground-truth" cụ thể. Thành công được đo bằng độ recall—AI đã phát hiện được bao nhiêu lỗi thực tế so với các chuyên gia con người đã kiểm tra mã ban đầu?

Chế độ Sửa lỗi (Kỹ sư)

Một khi phát hiện lỗi, AI có thể sửa nó không? Trong chế độ này, tác nhân phải sửa mã để loại bỏ lỗ hổng.() Tuy nhiên, có một điểm cần lưu ý: bản vá phải giữ nguyên chức năng gốc.() Nếu AI sửa lỗi nhưng làm hỏng các tính năng chính của hợp đồng, nó sẽ thất bại.

Chế độ khai thác (Người dùng nhóm Đỏ)

Đây là cài đặt "thực tế" nhất. Trong một môi trường Ethereum cục bộ, cách ly (sử dụng công cụ có tên Anvil), AI phải thực hiện thành công một cuộc tấn công rút tiền. Tiêu chuẩn được kiểm tra bằng chương trình để xác định xem "người tấn công" có thực sự thành công trong việc di chuyển số tiền ảo hay không.

Câu hỏi thường gặp về EVMbench

EVMbench có sử dụng tiền thật hay mạng trực tiếp không?

Không. EVMbench chạy trong một môi trường cục bộ hoàn toàn cách ly. Nó sử dụng phiên bản “được đóng gói trong container” của Máy ảo Ethereum, nghĩa là các tác nhân AI có thể cố gắng “hút hết tiền” mà không gây ra bất kỳ rủi ro tài chính hay hệ quả pháp lý nào trong thế giới thực.

Tại sao OpenAI và Paradigm lại phát hành điều này?

Để tạo ra một “thước đo chuẩn hóa” cho bảo mật AI. Bằng cách mở nguồn benchmark, họ đang cho phép toàn bộ cộng đồng tiền điện tử theo dõi khả năng của AI và khuyến khích các nhà phát triển xây dựng các công cụ kiểm toán hỗ trợ AI trước khi các tác nhân độc hại có thể lợi dụng công nghệ này.

Hiện tại, các tác nhân AI có thể thay thế các chuyên gia kiểm toán hợp đồng thông minh con người không?

Chưa. Trong khi AI rất giỏi trong việc tìm ra các lỗi cụ thể như “kim trong đống rơm” khi được gợi ý, nó vẫn gặp khó khăn khi thực hiện các cuộc kiểm toán toàn diện toàn bộ hệ sinh thái. Sự giám sát của con người vẫn là “phù thủy cuối cùng” của bảo mật hợp đồng thông minh.

Rủi ro "Vibe-Coding" được đề cập trong các báo cáo này là gì?

"Vibe-coding" đề cập đến việc các nhà phát triển sử dụng AI để tạo mã nhanh chóng và triển khai mà không thực hiện đánh giá thủ công kỹ lưỡng. Các vụ khai thác gần đây (như sự cố Moonwell trị giá 1,78 triệu USD) cho thấy rằng khi con người "đồng ý" mã do AI tạo ra quá nhanh, các lỗi logic quan trọng có thể lọt qua vào mạng chính.

Làm thế nào để tôi sử dụng EVMbench để kiểm thử các tác nhân AI của riêng mình?

Toàn bộ khung công tác là mã nguồn mở và có sẵn trên GitHub. Các nhà phát triển có thể tải xuống bộ dữ liệu, thiết lập môi trường Docker/Anvil cục bộ và chạy các tác nhân của riêng họ thông qua các quy trình Phát hiện, Sửa chữa và Khai thác.

EVMbench là gì? Chuẩn AI mới cho bảo mật hợp đồng thông minh

Những điểm chính

EVMbench là gì? Chuẩn AI mới cho bảo mật hợp đồng thông minh

EVMbench hoạt động như thế nào?

Chế độ Phát hiện (Người kiểm toán)

Chế độ Sửa lỗi (Kỹ sư)

Chế độ khai thác (Người dùng nhóm Đỏ)

Câu hỏi thường gặp về EVMbench

EVMbench có sử dụng tiền thật hay mạng trực tiếp không?

Tại sao OpenAI và Paradigm lại phát hành điều này?

Hiện tại, các tác nhân AI có thể thay thế các chuyên gia kiểm toán hợp đồng thông minh con người không?

Rủi ro "Vibe-Coding" được đề cập trong các báo cáo này là gì?

Làm thế nào để tôi sử dụng EVMbench để kiểm thử các tác nhân AI của riêng mình?