Ngày 27 tháng 3, Hội chợ Sáng tạo và An toàn Agentic AI đầu tiên và Đỉnh cao Quốc tế Web 4.0 lần thứ nhất tại Hồng Kông, do Cyberport Hồng Kông, ME Group và iPollo đồng tổ chức, đã được tổ chức trang trọng tại Cyberport Hồng Kông. Chủ đề của hội nghị này là “Ứng dụng sáng tạo Agentic AI: Sự thay đổi công nghệ và sự hội tụ ngành trong thời đại Web 4.0”, thu hút các lực lượng hàng đầu từ chính phủ, học thuật, công nghiệp và nghiên cứu, bao gồm Tư lệnh Tài chính Đặc khu Hành chính Hồng Kông Trần Mạo Ba, Chủ tịch Cyberport Hồng Kông Trần Tế Minh, Thành viên Hội đồng Cyberport Hồng Kông và người sáng lập Nano Labs Khổng Kiến Bình, cùng nhà đầu tư thiên thần nổi tiếng Thái Văn Thắng, cùng nhau thảo luận về cơ hội và thách thức trong kỷ nguyên mới khi AI chuyển từ “hội thoại” sang “hành động”.
Trong bối cảnh Trí tuệ nhân tạo có tính chất đại lý (Agentic AI) đang thu hút sự chú ý lớn, các vấn đề bảo mật do nó mang lại đặc biệt quan trọng. Yu Xian, người sáng lập SlowMist, đã được mời tham dự hội nghị này và trình bày bài diễn thuyết chủ đề “Thách thức bảo mật của AI và thế giới mã hóa cùng các sáng kiến phòng thủ”, chia sẻ với các nhà lãnh đạo ngành toàn cầu những quan sát và thực tiễn mới nhất của SlowMist trong lĩnh vực bảo mật AI.

Tập trung vào前沿:Phân tích sâu về mối đe dọa bảo mật của OpenClaw và AI Agent
Khi công nghệ AI liên tục thâm nhập vào thế giới tiền mã hóa, các ứng dụng AI Agent như “OpenClaw” nhanh chóng trở nên phổ biến. Nhưng đằng sau làn sóng nhiệt huyết này, một vấn đề sâu sắc hơn đang nổi lên: biên giới an toàn của AI Agent vẫn chưa thực sự được thiết lập.
Trong bài phát biểu, Yu Cheng đã phân tích sâu vào OpenClaw và đưa ra một phán đoán then chốt: “Văn bản chính là lệnh.” Ông giải thích rằng trong bối cảnh hoạt động của AI Agent, mọi đầu vào đều không còn chỉ là “thông tin” mà là các lệnh tiềm năng có thể thực thi. Điều này có nghĩa là bất kỳ thông tin bên ngoài nào mà mô hình nhận được — dù đến từ đầu vào của người dùng, tài liệu hướng dẫn hay Skill của bên thứ ba — đều có thể được giải thích và thực thi trực tiếp, từ đó mở rộng bề mặt tấn công từ cấp độ mã sang cấp độ “nhận thức”.
Trong cơ chế này, đường tấn công được đơn giản hóa đáng kể. Kẻ tấn công không cần phải phá vỡ các hàng rào bảo mật truyền thống, mà chỉ cần tạo ra nội dung văn bản được thiết kế tinh vi để lừa Agent thực hiện các hành động không mong muốn, chẳng hạn như chuyển tài sản, rò rỉ thông tin nhạy cảm hoặc thậm chí thực thi lệnh từ xa. Tính ẩn danh và chi phí thấp của đường tấn công này khiến nó mang tính đe dọa thực tế rất cao.
Dựa trên cơ chế trên, Cosine tiếp tục tổng hợp ba loại rủi ro cốt lõi mà OpenClaw đang đối mặt:
- Đầu vào và thao túng ý định (lớp tương tác người dùng): Kẻ tấn công có thể sử dụng “tiêm trực tiếp lời nhắc” để lừa Agent thực hiện các thao tác nguy hiểm. Đặc biệt cần cảnh giác với việc đầu độc chuỗi cung ứng gián tiếp—kẻ tấn công chèn lệnh độc hại vào tài liệu Markdown của Skill. Vì Markdown thường đóng vai trò là “điểm cài đặt”, các văn bản mô tả ban đầu rất dễ trở thành kịch bản thực thi độc hại (ví dụ: curl | bash), dẫn đến đánh cắp dữ liệu.
- Rủi ro lớp quyết định và điều phối (lớp logic ứng dụng): Lỗi này không xuất phát từ chính mô hình, mà đến từ “logic thực thi sai”. Kẻ tấn công có thể can thiệp vào quá trình suy luận logic của Agent, khiến nó thay đổi địa chỉ nhận tiền trong các quy trình nghiệp vụ như chuyển tiền mã hóa, gây tổn thất tài chính trực tiếp.
- Rủi ro lớp mô hình (bộ não cốt lõi): Bao gồm hiện tượng “ảo giác” do mô hình tạo ra dẫn đến việc thực thi các lệnh hệ thống không tồn tại hoặc nguy hiểm, cũng như các mô hình hoạt động không an toàn mà mô hình học sai từ dữ liệu huấn luyện.
Yu Xian chỉ ra: “Vấn đề mà OpenClaw phơi bày không phải là hiện tượng cô lập, mà là thách thức cấu trúc mà toàn bộ hệ sinh thái AI Agent đang đối mặt.” Nói cách khác, các vấn đề bảo mật đã không còn là “trường hợp cá biệt” của một dự án duy nhất, mà là rủi ro hệ thống mà toàn ngành phải đối mặt.
Vừa tấn công vừa phòng thủ: Xây dựng hệ sinh thái mã nguồn mở an toàn cho AI Agent
Trước những hình thái đe dọa không ngừng phát triển, Yu Xian đã đề xuất trong bài phát biểu của mình tư duy an ninh "vừa tấn công vừa phòng thủ" của SlowMist: không chỉ cần hiểu rõ các con đường tấn công, mà còn phải tích hợp khả năng phòng thủ vào cơ chế vận hành của Agent, nhằm xây dựng an ninh từ bên trong.
Anh ấy đã trình bày với các khách mời một loạt công cụ và giải pháp mã nguồn mở do SlowMist xây dựng xung quanh AI Agent, nhằm thúc đẩy hình thành một hệ sinh thái bảo mật minh bạch, có thể xác minh và có thể tái sử dụng:
- OpenClaw 极简安全实践指南:一份从认知层到基础设施层的端到端安全部署手册,为高权限AI Agent在真实生产环境中的部署提供了系统性的“安全思想钢印”。
- SlowMist Agent Security Skill:Một khung đánh giá bảo mật tổng hợp, trang bị cho các tác nhân như OpenClaw đôi “mắt sáng”. Nó không chỉ phát hiện nguy cơ đầu độc trong các Skills thông thường, mà còn nhận diện rủi ro từ địa chỉ ví trên chuỗi, kho mã nguồn và URL.
- MistTrack Skills: Một gói kỹ năng Agent plug-and-play, cung cấp khả năng tuân thủ AML chuyên nghiệp và phân tích rủi ro địa chỉ cho AI Agent, có thể được sử dụng để đánh giá rủi ro địa chỉ trên chuỗi và phán đoán rủi ro trước giao dịch.
- MCP Security Checklist: Một danh sách kiểm tra an toàn có hệ thống nhằm kiểm tra nhanh và củng cố dịch vụ Agent, giúp đội ngũ tránh bỏ sót các điểm phòng thủ quan trọng khi triển khai MCPs/Skills và chuỗi công cụ AI liên quan.
- Đánh lừa MCP độc hại: Một ví dụ về máy chủ MCP độc hại mã nguồn mở nhằm tái tạo các cảnh tấn công thực tế và kiểm tra độ bền của hệ thống phòng thủ, có thể sử dụng cho nghiên cứu bảo mật và xác minh phòng thủ.
Qua chuỗi thực hành này, Yu Cen nhấn mạnh: “Khả năng bảo mật phải được tích hợp sẵn trong Agent, chứ không chỉ dựa vào các lớp bảo vệ bên ngoài.” Chỉ khi các cơ chế phòng thủ được liên kết sâu sắc với logic vận hành của Agent, AI Agent mới có thể hoạt động liên tục và an toàn trong hệ sinh thái Web3 và AI phức tạp.
Hệ thống hóa bảo mật: ADSS bảo vệ toàn diện hệ sinh thái AI + Web3
At the end of the speech, Yu Sheng introduced SlowMist's ADSS (AI Development Security Solution).
Nếu các công cụ được đề cập ở trên thuộc về “khả năng chiến thuật”, thì ADSS giống như một khung an ninh cấp hệ thống. Triết lý cốt lõi của nó là: nâng cao các hành động an ninh rời rạc thành một cơ chế vận hành an ninh có hệ thống, có thể thực thi, có thể kiểm toán và bền vững.

ADSS xây dựng năng lực quản trị an toàn AI + Web3 từ nhiều cấp độ:
- Quản trị bảo mật cấp L1 (tiêu chuẩn phát triển): Xây dựng tiêu chuẩn bảo mật thống nhất cho phát triển và sử dụng, bao gồm công cụ phát triển, khung Agent, hệ sinh thái plugin và môi trường chạy, cung cấp nguồn chiến lược và tiêu chuẩn kiểm toán thống nhất cho nhóm.
- Quyền hạn và ràng buộc hoạt động cấp L2: Thông qua thu hẹp ranh giới quyền hạn của Agent, tối thiểu hóa quyền truy cập công cụ và áp dụng cơ chế xác nhận con người-máy đối với các thao tác quan trọng, phạm vi thực hiện các hành vi rủi ro cao được kiểm soát hiệu quả.
- Bảo vệ tương tác bên ngoài L3: Giới thiệu nhận thức mối đe dọa theo thời gian thực ở cấp độ tài nguyên bên ngoài như URL, kho phụ thuộc, nguồn plugin, nhằm giảm xác suất nội dung độc hại hoặc đầu độc chuỗi cung ứng xâm nhập vào chuỗi thực thi.
- Cách ly tài sản trên chuỗi cấp L4: Đối với các thao tác liên quan đến giao dịch trên chuỗi, kết hợp phân tích rủi ro trên chuỗi và cơ chế ký độc lập, giúp Agent xây dựng giao dịch mà không trực tiếp tiếp xúc với khóa riêng, giảm thiểu rủi ro hệ thống do thao tác với tài sản giá trị cao gây ra.
- L5 Kiểm tra và đánh giá liên tục: Thông qua kiểm toán nhật ký, rà soát an ninh định kỳ và cơ chế vận hành, đạt được năng lực an ninh khép kín “kiểm tra trước khi thực thi, ràng buộc trong quá trình thực thi và đánh giá sau khi thực thi”.
Yuxian chỉ ra rằng ADSS không phải là một công cụ đơn lẻ, mà là một hệ thống vận hành an toàn bền vững và có khả năng phát triển. Nó nhằm giúp các đội ngũ xây dựng hệ thống an toàn Agent có thể kiểm toán và nâng cấp, thông qua các chiến lược hệ thống, giám sát liên tục và liên kết năng lực, đồng thời không làm giảm đáng kể hiệu quả phát triển và khả năng tự động hóa, từ đó ứng phó với các mối đe dọa an toàn không ngừng phát triển trong bối cảnh AI và Web3 tích hợp sâu sắc.
Kết luận
Hội thảo Đổi mới và An toàn Agentic AI lần đầu tiên không chỉ quy tụ những lực lượng hàng đầu ngành, mà còn mang đến những tầm nhìn tiên phong về an toàn AI Agent. Khi Agentic AI và Web3 ngày càng tích hợp sâu rộng, các thách thức an toàn sẽ tiếp tục gia tăng. Là công ty bảo mật blockchain hàng đầu toàn cầu, SlowMist sẽ tiếp tục thúc đẩy việc triển khai quản trị an toàn hệ thống thông qua ADSS, các công cụ mã nguồn mở và thực tiễn, xây dựng năng lực an toàn nội sinh cho AI Agent, hỗ trợ ngành công nghiệp đạt được sự phát triển bền vững và kiểm soát được an toàn trong làn sóng đổi mới.
