Các thách thức kỹ thuật trong ứng dụng AI Agent doanh nghiệp đang trở thành trọng tâm ngành công nghiệp. Mặc dù khung mã nguồn mở OpenClaw có 370.000 sao, các doanh nghiệp gặp phải nhiều khó khăn khi triển khai thực tế như chi phí container cao, tỷ lệ sự cố tăng đột biến và lỗ hổng bảo mật. Alibaba Cloud đã ra mắt nền tảng AI Agent doanh nghiệp JVS Crew, áp dụng kiến trúc “tách biệt não bộ và môi trường thực thi”, tách riêng não bộ, môi trường thực thi và hệ thống bộ nhớ để chạy độc lập, cung cấp ba cơ chế bảo mật: tường danh tính, tường nội dung và tường thực thi. Nền tảng này đã được xác minh thành công trong các ngành tài chính, thương mại điện tử, vận tải biển và y tế.
Tác giả bài viết, nguồn: Newzhong

OpenClaw, 370.000 sao. Hermes Agent, ba tháng đạt 140.000 sao.
Nửa đầu năm 2026, sự đồng thuận lớn nhất của các nhà phát triển toàn cầu là một việc: nuôi tôm.
Tuy nhiên, trong công ty, hầu hết những người đầu tiên sử dụng OpenClaw đều từng trải qua khoảnh khắc “bị bóc trần”.
Bạn đã huấn luyện con tôm của mình đến mức cực kỳ hữu ích, giúp bạn viết báo cáo hàng tuần, sắp xếp email và tự động chạy dữ liệu, đồng nghiệp nhìn qua một cái là khen: “Cái này dùng hay quá!”
Tin tức đến tai sếp, sếp đập bàn, cả công ty cùng sử dụng.
Sau đó, bạn phát hiện ra rằng, rắc rối thực sự mới chỉ bắt đầu.

Một nhiệm vụ chạy mất kiểm soát đã tiêu hết toàn bộ ngân sách token trong tháng, không ai biết con tôm nào làm điều đó; 1.000 người mỗi người nuôi một con tôm, kinh nghiệm không chia sẻ với nhau, mỗi người đều phải bắt đầu từ đầu để dạy.
Phó chủ tịch Tập đoàn Alibaba Cloud Intelligence, Trương Hiến Đào, đã trao đổi với nhiều khách hàng doanh nghiệp và nghe thấy nhiều nhất sáu chữ: “Dùng được, nhưng không tiện dụng”.
Dưới ánh hào quang, việc triển khai Agent đối mặt với nhiều khó khăn.

Lão Hoàng cũng đã nhìn thấy cùng một vấn đề này.
Tại GTC 2026, NVIDIA đã hợp tác với nhà sáng lập OpenClaw ra mắt NemoClaw Enterprise, nổi bật với tính năng triển khai một chạm và cách ly sandbox.
Lão Hoàng đã nói trong bài phát biểu rằng, mỗi doanh nghiệp, mỗi công ty phần mềm đều cần một chiến lược Agent.

80% chi phí tích lũy, nền tảng chi trả
Tuy nhiên, thực tế lại khắc nghiệt hơn những khẩu hiệu.
Nhiều doanh nghiệp hăng hái sử dụng OpenClaw để tự xây dựng, chơi trong một tháng rưỡi, rồi quay về với vẻ mặt bê bết. Câu chuyện đều tương tự nhau.
Một nhà sản xuất công nghệ, đội ngũ kỹ thuật của họ rất mạnh, đã tập hợp một nhóm người và trực tiếp thực hiện, lựa chọn tự xây dựng.
Kết quả, đến khi Skill được phát triển hoàn chỉnh, họ mới phát hiện ra một sự thật nghiêm trọng: kiến trúc OpenClaw yêu cầu container phải trực tuyến 7×24 giờ; một khi tắt, tôm hùm sẽ offline và mất liên lạc.
Nói cách khác, mỗi người dùng đều phải chiếm dụng một container trong thời gian dài.
Người dùng có thể lên đến vài chục triệu, nếu gắn cho mỗi người một container chạy liên tục không ngừng, khoản chi phí này, ai tính cũng phải rùng mình.
Còn nhiều điều thú vị hơn đang đến.
Hàng chục triệu con tôm hùm chạy riêng lẻ, chỉ cần người dùng thay đổi prompt hoặc thao tác với cổng, trong chốc lát có thể làm tôm hùm hỏng hết.
Xem một chiếc thì xác suất rất thấp, nhưng khi số lượng tăng lên, tỷ lệ lỗi lập tức trở thành cơn ác mộng.

Đúng vào cuối tháng 3, bản cập nhật lớn của OpenClaw đột ngột không còn tương thích ngược, khiến toàn bộ công việc mà người dùng đã vất vả tích lũy trước đó đều trở thành công cốc, người dùng không thể sử dụng trong vài giờ mỗi ngày.

Một công ty công nghệ khác còn “chuyên nghiệp” hơn: mua máy tính đám mây của Alibaba Cloud, kết hợp với phần mềm quản lý tác nhân của một công ty bảo mật nổi tiếng, tự xây dựng nền tảng.
Đầu tháng 4, họ rất hào hứng, cho rằng bộ kỹ năng này thực sự hiệu quả.
Một ngày nọ, sau một lần nâng cấp, tất cả các tác nhân đồng loạt ngoại tuyến và rất nhiều bộ nhớ bị mất trực tiếp.
Thua lỗ nghiêm trọng.
Đây chính là bức tường thực sự mà doanh nghiệp phải đối mặt: an toàn, ổn định và độ phức tạp kỹ thuật — ba ngọn núi đè lên đầu.

OpenClaw đã giải quyết câu hỏi “Agent có thể sử dụng được không”, nhưng hoàn toàn không trả lời câu hỏi “doanh nghiệp có dám sử dụng, có đủ khả năng chi trả và có dễ sử dụng không”.
Tại Hội nghị Alibaba Cloud 2026, Alibaba Cloud đã giới thiệu đầy đủ bộ công cụ JVS, bao gồm JVS Claw dành cho cá nhân, JVS Crew dành cho doanh nghiệp và JVS Mobile dành cho thiết bị di động.

Trong đó, JVS Crew chính là nhà máy sản xuất hàng loạt “tôm hùm” cấp doanh nghiệp. Một nền tảng xây dựng Agent cấp doanh nghiệp được quản lý toàn bộ, dễ tích hợp và có thể kiểm soát.
Bản chất của nó không phải là một Agent nữa, mà là một hệ điều hành của thời đại Agent.
Khi doanh nghiệp triển khai Agent, những công việc khó khăn nhất như cách ly đa thuê bao, tuân thủ an toàn, tính toán chi phí và kết nối kênh, JVS Crew sẽ lo hết. Bạn chỉ cần chăm tôm, những việc còn lại đừng lo.

Về cách tích hợp, JVS Crew theo hướng “được tích hợp”.
Nói cách khác, bạn không cần phải vứt bỏ hệ thống hiện tại để xây dựng một hệ thống mới.
JVS Crew giống như một nền tảng, có thể tích hợp trực tiếp vào ứng dụng, hệ thống kinh doanh hoặc thậm chí là phần cứng hiện có của bạn, giúp sản phẩm của bạn “mọc lên” khả năng như tôm.
Các kênh phổ biến như DingTalk, Feishu, WeChat Work và QQ đều có thể kết nối ngay sau khi mở hộp, chỉ cần thiết lập một lần là có thể sử dụng trên tất cả các kênh.
Giá cũng rất thú vị. Không có phí vị trí, tính hoàn toàn theo mức sử dụng, dùng bao nhiêu trả bấy nhiêu, thanh toán cuối tháng.
Theo lời Trương Hiến Đào, hãy để mọi doanh nghiệp, mọi người dùng đều dám sử dụng và có khả năng chi trả.

Tay não tách rời
Tại sao lại phải “bóc” con tôm ra?
Kiến trúc nền tảng hỗ trợ JVS Crew được gọi là “tách biệt tay và não”.
Vấn đề của OpenClaw nằm ở đây: não bộ, đôi tay và trí nhớ đều bị ràng buộc cùng nhau, chạy trong cùng một tiến trình.
Đối với cá nhân thì không sao, nhưng trong doanh nghiệp, nếu một khâu nào đó gặp sự cố, cả hệ thống đều phải khởi động lại.
Muốn thay đổi mô hình, môi trường thực thi cũng phải theo đó mà thay đổi. Muốn mở thêm vài con tôm, tất cả các lớp đều phải cùng mở rộng. Một chỗ động, cả hệ thống đều rung chuyển.
JVS Crew đã hoàn toàn tháo rời ba thứ này dựa trên ý tưởng kỹ thuật của Harness.

Bộ não (lớp Agent), chỉ việc suy nghĩ. Mô hình và từ khóa nhắc nhở có thể thay đổi bất kỳ lúc nào, hôm nay dùng Tongyi, ngày mai chuyển sang GPT, phần thực hiện công việc không cần thay đổi.
Hai tay (lớp Environment), chỉ cần làm. Mỗi tác vụ chạy trong môi trường ảo đám mây riêng biệt, không ảnh hưởng lẫn nhau.
Điểm nổi bật nhất là JVS Crew sử dụng công nghệ snapshot để lưu trạng thái, nếu quá trình chạy bị ngắt giữa chừng, các tệp làm việc sẽ không bị mất và bạn có thể tiếp tục từ điểm bị ngắt, thay vì phải bắt đầu lại từ đầu.
Việc “tiếp tục chạy từ điểm ngắt” nghe thì đơn giản, nhưng đằng sau là một cơ chế hoàn chỉnh gồm tách biệt lưu trữ và tính toán cùng khôi phục thông qua ảnh chụp nhanh. Khi doanh nghiệp đồng thời chạy hàng ngàn con tôm, trạng thái làm việc của từng con tôm đều phải được lưu trữ và khôi phục một cách đáng tin cậy — đây chính là vấn đề khó khăn kinh điển trong hệ thống phân tán.
Lớp phiên (Session layer), chịu trách nhiệm điều phối. Ai đi trước, ai đi sau giữa não bộ và đôi tay, đã làm đến bước nào, bước tiếp theo cần làm gì, tất cả đều nhờ nó kết nối.
Ba lớp hoạt động độc lập, từng lớp tự nâng cấp mà không ảnh hưởng đến nhau. Thay đổi mô hình không ảnh hưởng đến môi trường thực thi, thêm máy chủ không cần thay đổi logic suy luận. Từ 1 con tôm mở rộng lên 10.000 con tôm, kiến trúc không cần thiết kế lại.

Điều thú vị là, bên bờ đại dương xa xôi cũng đã đến cùng một ngã rẽ.
Anthropic đã ra mắt Claude Managed Agents (CMA) vào tháng 4, ban đầu托管 toàn bộ logic và môi trường thực thi Agent trên đám mây của chính họ.

Nhưng ngay vào ngày 19 tháng 5, Anthropic đã thêm các sandbox tự lưu trữ cho CMA, tách lớp thực thi vào cơ sở hạ tầng của doanh nghiệp, trong khi việc sắp xếp vẫn giữ trên đám mây.
Gần như cùng một bản thiết kế với “tách biệt tay và não” mà JVS Crew đã áp dụng từ ngày đầu tiên.

Ba lớp bảo mật: Hãy để shrimps tự do, nhưng đừng để chúng đi lệch hướng
Khả năng tuyệt vời nhất của tôm là “thực thi tự chủ”, tự lập kế hoạch, tự điều chỉnh công cụ và tự hoàn thành công việc.
Nhưng nếu nghĩ theo hướng khác, tự thực thi đồng nghĩa với việc không thể dự đoán được. Trong doanh nghiệp, sự không thể dự đoán được là điều chết người.
JVS Crew thực hiện việc lắp ba "bức tường" cho tôm.

Rào cản đầu tiên: tường danh tính.
Kiểm soát quyền vai trò dựa trên RBAC, ai có thể sử dụng công cụ nào, xem dữ liệu nào đều được liên kết với vai trò.
Thông tin khách hàng có thể được xem khi bán tôm, nhưng không thể xem dữ liệu tài chính. Quản trị viên sẽ cấu hình thống nhất ở nền tảng后台, không cần thiết lập từng cái một.
Bước thứ hai: tường nội dung.
Ba giai đoạn: thông tin vào, dữ liệu đang xử lý và kết quả ra, mỗi giai đoạn đều có một cửa an toàn.
Ngăn chặn đầu vào để tránh bị tiêm prompt, ngăn những người cố gắng dùng lệnh độc hại để chiếm quyền kiểm soát hành vi của tôm ngay từ cửa.
Lớp xử lý tự động nhận diện thông tin nhạy cảm PII, khi xử lý dữ liệu và phát hiện số CMND, số điện thoại, sẽ tự động che mờ.
Lớp đầu ra thực hiện kiểm tra tuân thủ, nếu nội dung đầu ra không phù hợp, đây là cửa kiểm soát cuối cùng để đảm bảo an toàn.
Bức tường thực thi thứ ba.
VM kết hợp container bảo mật với hai lớp cách ly, tôm chạy trong sandbox, không thể thoát ra.
Khi gặp các thao tác nguy hiểm như chuyển tiền hoặc xóa dữ liệu, sau khi tôm đưa ra phán đoán, nó sẽ không tự động thực hiện mà sẽ dừng lại để chờ sự xác nhận của con người. Hãy để nó tự do hành động, nhưng đến thời điểm then chốt, con người mới là người quyết định.
Đừng cho rằng đây là lo lắng vô cớ.
Tháng Hai năm nay, SecurityScorecard phát hiện hơn 40.000 phiên bản OpenClaw bị phơi bày trên internet, một phần ba trong số đó có lỗ hổng đã được biết đến.

Báo cáo của Token Security cũng chỉ ra rằng 22% nhân viên đã tự ý cài đặt OpenClaw trên máy tính công ty, trong khi bộ phận IT hoàn toàn không hay biết.

Nếu những con tôm này chạy trong ba bức tường, phần lớn các sự cố an toàn sẽ không xảy ra.
Làm cho tôm thực sự “có năng lực” trong doanh nghiệp
An toàn là nền tảng, nhưng chỉ có nền tảng thì chưa đủ.
JVS Crew đã đầu tư tại ba địa điểm để biến con tôm từ “có thể chạy” thành “có thể đánh”.

Trước hết, là trí nhớ.
Giải pháp bộ nhớ bản địa của OpenClaw là một tệp MEMORY.md, về cơ bản là lưu trữ văn bản thuần, với khả năng hạn chế.
Các plugin bên thứ ba như Mem0 có thể được cải thiện, nhưng vẫn còn khoảng cách so với quản lý bộ nhớ liên phiên bản doanh nghiệp.
JVS Crew đã biến ký ức thành khả năng cấp nền tảng, chia thành hai lớp:
- Bộ nhớ cục bộ, nhẹ và nhanh chóng;
- Tăng cường trí nhớ bằng cơ sở dữ liệu vector trên đám mây, có thể truy xuất chính xác ngữ cảnh cần thiết từ lượng dữ liệu lịch sử khổng lồ, tiết kiệm token và nhanh chóng.
Quan trọng hơn, trí nhớ có thể được chia sẻ trong đội nhóm. Kinh nghiệm giao tiếp với khách hàng do Nhân viên B tích lũy cũng có thể được Nhân viên A sử dụng. Kinh nghiệm cá nhân trở thành tài sản tổ chức.
Thứ hai, là chi phí.
Doanh nghiệp lo lắng nhất điều gì khi sử dụng Agent?
Xem hóa đơn cuối tháng. Một tác vụ phức tạp chạy lên, token bị đốt rất nhanh và khó ước lượng trước.
JVS Crew đã thiết lập hệ thống ngân sách bốn cấp: từ công ty đến phòng ban, đến cá nhân, đến từng con tôm; tự động cảnh báo khi chi hết 80% và tự động dừng khi chi hết 100%.
Đặt một bảng theo dõi thời gian thực, rõ ràng về tiền được chi vào đâu và ai đã chi.
Cuối cùng, là gỡ lỗi.
Shrimp có vấn đề, điều đáng sợ nhất là không biết vấn đề nằm ở đâu.
JVS Crew đã xây dựng một chuỗi truy vết end-to-end, ghi lại từng bước làm việc của tôm: từ khi nhận nhiệm vụ, bắt đầu thực hiện, sử dụng công cụ nào, đến khi trả về kết quả gì, toàn bộ chuỗi đều có thể truy vết. Khi xảy ra lỗi, có thể xác định vị trí trong vài giây, không cần phải lục tìm nhật ký một cách may rủi.
Đã có người bắt đầu chạy rồi
JVS Crew sau chưa đầy hai tháng thương mại hóa đã được nhiều doanh nghiệp trong các ngành khác nhau sử dụng.
Đại Trí Huệ sử dụng nó làm trợ lý AI để nghiên cứu đầu tư, tích hợp vào ứng dụng của họ và ra mắt sau 2 tuần. Độ gắn kết của người dùng tăng gấp đôi, chi phí đám mây giảm một nửa.
Chợ hàng hóa nhỏ Nghĩa Ô tích hợp vào ứng dụng "Thế Giới Nghĩa Ô", giúp tôm tự động tạo chiến lược nội dung nổi bật và tối ưu văn bản quảng bá đa ngôn ngữ. Cũng trong 2 tuần triển khai, hiệu quả vận hành tăng 5 lần.
COSCO Shipping Technology đã sử dụng nó để xây dựng một ma trận Agent có tên Hi-Dolphin, bao phủ việc phân phối thông tin cho các hoạt động vận tải hàng hải toàn cầu. Hiệu quả triển khai Agent tăng 10 lần.
Shanghai Yimi đã phát triển trợ lý thông minh tập trung vào bốn kịch bản: tài liệu y khoa, hướng dẫn thuốc, dịch thuật y tế và hồ sơ y tế, tích hợp hoàn tất trong 2 tuần, hỗ trợ chạy đồng thời hơn 100 nhiệm vụ phức tạp và giảm một nửa thời gian kiểm duyệt.
Bốn ngành công nghiệp, bốn chiến lược khác nhau. Chu kỳ triển khai đều được tính theo “tuần”.
Nửa sau của AI
Bây giờ, điểm nghẽn của Agent đã được thay đổi.
Cùng thời điểm năm ngoái, mọi người vẫn đang thảo luận về việc mô hình có đủ thông minh hay không.
Năm nay, sự đồng thuận trong ngành đang dần chuyển sang một vấn đề khác: xây dựng nền tảng kỹ thuật như thế nào.
Mô hình đã thông minh đến mức đáng được nghiêm túc đối xử. Và việc nghiêm túc đối xử với một con tôm, nghĩa là trang bị cho nó hệ thống nước, điện, gas, kiểm soát ra vào, phòng cháy chữa cháy và quản lý bất động sản.
Một ngôi nhà cấp bốn và một tòa nhà chọc trời sử dụng các hệ thống móng và đường ống hoàn toàn khác nhau. Bạn không thể gộp một nghìn ngôi nhà cấp bốn lại rồi gọi đó là tòa nhà chọc trời.
Nhìn xa hơn, khi chi phí mã nguồn tiến gần đến mức bằng không, lợi thế cạnh tranh của sản phẩm đang dần tan biến.
SaaS đang lan rộng sang Agent, và Agent đang thâm nhập sâu hơn vào cơ sở hạ tầng.
Con tôm thông minh nhất sẽ được ghi nhớ. Nhưng cuối cùng còn lại là nhà máy ổn định nhất.
