Việc phổ biến Coding Agent sang các kịch bản chung là cuộc cạnh tranh ở cấp độ hệ thống.
Tác giả bài viết, nguồn: Narrowcast AI
Đối với lĩnh vực AI, đây là một tuần đầy những tin tức quan trọng. Từ việc Huang Renxun tái định nghĩa AI PC, đến Microsoft Build 2026 kêu gọi “Agent-first”, OpenAI công bố hợp nhất ChatGPT và Codex, cùng với việc tiết lộ tiến triển của WeChat Agent, Qwen bắt đầu tích hợp Skill bên thứ ba, DouBao phản hồi về tin đồn trả phí, và Meituan nhấn mạnh tại cuộc họp báo cáo tài chính rằng dịch vụ AI Agent đang trở nên ngày càng quan trọng.
Trước đây có người hỏi tại sao không ai nhắc đến OpenClaw nữa, từng là dự án nổi đình nổi đám? Những tin tức được công bố trong tuần này đã trả lời câu hỏi đó bằng hành động – mọi người không còn nhắc đến OpenClaw nữa vì Coding Agent đã trở thành một giải pháp phổ quát để thực hiện nhiệm vụ, đồng thời đang hội tụ với Chatbot, đồng thời hệ sinh thái Skill và Agent tương ứng cũng bắt đầu được xây dựng, và các cuộc khám phá trả phí mới đang được tiến hành.
Các công ty lớn đang chuyển hóa những bài học từ OpenClaw thành những tiến bộ thực tế trong kinh doanh. Trong quá trình này, OpenClaw cũng như các sản phẩm chúng ta đang thấy hiện nay có thể không phải là hình thái cuối cùng của các sản phẩm AI. Như Tiến sĩ Yao Shunyu, Khoa học gia AI hàng đầu của Tencent, đã nói tại Hội nghị Ứng dụng AI Công nghiệp Tencent Cloud 2026, một cuộc biến đổi dài hạn vừa mới bắt đầu, và các hình thái sản phẩm, cơ hội kinh doanh cũng như cách sử dụng thực sự vẫn chưa được phát minh đầy đủ.
Điều chúng ta có thể xác định là Agent đang trở thành chiến trường cốt lõi của AI trong các tập đoàn lớn, và hình thái cạnh tranh này đang không ngừng phát triển theo bốn trục chính: ai có thể mở rộng người dùng cho nhiều bối cảnh năng suất hơn; ai có thể tích hợp sâu hơn các sản phẩm nội bộ; ai có thể xây dựng hệ sinh thái Skill và Agent phong phú đủ; và ai có thể tích lũy đủ ngữ cảnh.
「Đồng nghiệp」trở thành trọng tâm cạnh tranh của Agent
“Đồng nghiệp” là từ được nhắc đến nhiều nhất khi mô tả Agent hiện nay. Microsoft thiết kế Scout để hoạt động “như một đồng nghiệp”; Khoai tây 3.0 nhấn mạnh việc con người hợp tác cùng đội ngũ AI; các plugin Agent do OpenAI ra mắt được miêu tả là “những đồng nghiệp mới đã hoàn tất thủ tục nhập職 và hiểu rõ toàn bộ quy trình”.
Các biểu đạt này cho thấy các bối cảnh năng suất đã trở thành trọng tâm cạnh tranh của các đại gia trong lĩnh vực Agent.
Scout do Microsoft ra mắt là một Agent được xây dựng trên khung OpenClaw, luôn hoạt động trong Microsoft 365, có thể chạy trong Teams, phối hợp với các ứng dụng văn phòng như Outlook, OneDrive, duyệt email, lịch, tin nhắn công việc, tự động xử lý xung đột cuộc họp, soạn thảo phản hồi và đẩy tiến độ nhiệm vụ. Đồng thời, Microsoft cũng đã ra mắt Agent 365 để quản lý tập trung danh tính, quyền hạn, chính sách và rủi ro của các Agent cho doanh nghiệp.
OpenAI đã đặt chủ đề buổi ra mắt trực tiếp là "Intelligence at Work". Trong buổi ra mắt này, OpenAI đã thực hiện ba nâng cấp cốt lõi cho Codex: ra mắt plugin Agent có khả năng tùy chỉnh; mở rộng khả năng chỉnh sửa chú thích cục bộ từ mã và trang web sang tài liệu, bảng tính và PPT; và khả năng tạo trang web để trình bày kết quả.
Đồng thời, trong các phản hồi về các tính năng trả phí, DouBao cho biết nhằm đáp ứng nhu cầu năng suất của nhóm chuyên gia, DouBao dự kiến ra mắt phiên bản chuyên nghiệp của DouBao, bao gồm các dịch vụ chuyên sâu như phát triển phần mềm, phân tích dữ liệu, thiết kế chuyên nghiệp, tự động hóa quy trình, phân tích tài chính và nghiên cứu khoa học.

Các hành động sản phẩm này cho thấy giá trị lớn của các bối cảnh năng suất—không chỉ là các bối cảnh doanh nghiệp theo nghĩa truyền thống—đã được xác thực bằng tiền thật.
Dữ liệu do OpenAI công bố cho thấy kể từ tháng Hai năm nay, số người dùng hoạt động hàng tuần của Codex đã tăng gấp 6 lần, đạt 5 triệu, trong đó tốc độ tăng trưởng của những người làm việc tri thức cao gấp 3 lần so với các nhà phát triển. Doanh thu của Anthropic trong quý II dự kiến tăng hơn gấp đôi, lên 10,9 tỷ USD, và có thể đạt lợi nhuận hoạt động 559 triệu USD, với phần lớn doanh thu đến từ các doanh nghiệp và công ty khởi nghiệp.
Việc tích hợp và kết nối các sản phẩm nội bộ đang được đẩy mạnh sâu sắc hơn
Việc cập nhật và lặp lại sản phẩm tương ứng với việc tái cấu trúc kiến trúc sản phẩm sâu hơn. Một mặt, hiện nay các công ty lớn đều đã triển khai Chatbot và một hoặc nhiều sản phẩm Agent, và hiện đang bắt đầu tích hợp các sản phẩm này. Nổi bật nhất là sự tích hợp của OpenAI giữa ChatGPT và Codex.
OpenAI muốn nâng cấp ChatGPT từ một cổng giao tiếp đơn thuần thành giao diện chính để phối hợp với các Agent, trong khi Codex sẽ được nâng cấp thành nền tảng Agent tổng quát đáp ứng nhu cầu làm việc trong nhiều bối cảnh như văn phòng, nghiên cứu, quy trình doanh nghiệp, phân tích dữ liệu và vận hành kinh doanh, với lõi là mở rộng các tình huống sử dụng của Coding Agent. Qua sự tích hợp này, OpenAI kỳ vọng sẽ phổ biến Codex đến với lượng người dùng khổng lồ của ChatGPT, từ đó mở rộng cơ sở người dùng trả phí.
Còn có thông tin cho thấy OpenAI dự định tích hợp trình duyệt AI Atlas vào cuộc hợp nhất các ứng dụng AI siêu cấp này.
Mặt khác, năng lực và dịch vụ sản phẩm internet truyền thống của các công ty lớn đang nhanh chóng được tích hợp vào các sản phẩm AI dưới dạng Skill hoặc Agent. Alibaba bổ sung khả năng đặt đồ ăn, gọi xe và mua sắm trên Taobao cho Qwen là một trong những nỗ lực sớm nhất. Hiện nay, chúng ta có thể thấy ByteDance, Meituan và Tencent đều đang thực hiện các công việc tương tự.
Sau khi kết nối Douyin Mall với DouBao, ByteDance đang tăng cường đề xuất các cửa hàng và gói giao dịch nhóm cho các dịch vụ sống tại địa phương như ẩm thực, vé phim, nhà ở ngắn hạn. Tại cuộc họp báo cáo tài chính, Meituan cho biết trợ lý AI "Xiao Tuan" đã được tích hợp vào ứng dụng Meituan, phục vụ hơn 100 triệu người dùng trong dịp lễ 1/5, bao phủ các cảnh huống như ăn uống, giải trí, di chuyển và tư vấn y tế. Tencent Docs cũng đã chuyển đổi các năng lực xử lý tài liệu tích lũy trước đây thành Skill, được WorkBuddy gọi đến.
Trong suốt Hội nghị Ứng dụng AI của Tencent Cloud năm 2026, Tang Dao Sheng, Phó Chủ tịch điều hành cấp cao của Tập đoàn Tencent, cho biết: nhiều chức năng của các ứng dụng truyền thống trước đây cần được chuyển đổi thành khả năng có thể được các tác nhân thông minh gọi đến, mới có thể giải phóng thêm giá trị tích lũy qua nhiều năm. Vì vậy, năm nay WeCom đã mở ra một số khả năng dữ liệu ban đầu thông qua giao diện và Skill, để các tác nhân thông minh khác có thể gọi đến. Xu hướng mở này ngày càng rõ ràng hơn.
Việc xây dựng hệ sinh thái bên thứ ba đã bắt đầu được đưa vào chương trình làm việc
Sự khác biệt cốt lõi giữa Agent và các sản phẩm trước đó là nó có khả năng gọi công cụ. Điều này yêu cầu phía sau Agent phải có một hệ sinh thái công cụ phong phú. Ngay cả các công ty lớn cũng khó có thể tự mình xây dựng hệ sinh thái này. Do đó, cần sự phát triển hệ sinh thái Skill hoặc Agent từ bên thứ ba.
Việc xây dựng hệ sinh thái này hiện đã được đưa vào chương trình làm việc.
Sau khi hoàn thành việc tích hợp các sản phẩm và dịch vụ bên thứ nhất của Alibaba, Qwen tuyên bố sẽ mở rộng toàn diện cho các Agent và Skill bên thứ ba, cho phép mọi doanh nghiệp đều có thể vận hành Agent thương hiệu của riêng mình trên Qwen. Tuần này, Luckin Coffee, KFC, Mixue Ice Cream & Tea và China Eastern Airlines đã triển khai Skill trên Qwen. Sau đó, các doanh nghiệp còn có thể tự định nghĩa nhân vật và dịch vụ cụ thể cho Agent trên Qwen.
Tencent đồng thời tích hợp Tiểu Mỹ của Meituan vào Yuanbao để cung cấp cho người dùng các dịch vụ như đặt đồ ăn mang đi, giao hàng; đồng thời đẩy nhanh việc xây dựng hệ sinh thái Agent của WeChat.
Các báo cáo truyền thông cho thấy Agent của WeChat đã hoàn thành kiểm tra bản mẫu và có thể bắt đầu quy trình phê duyệt tuân thủ trước khi ra mắt công khai trong tháng này. Agent này có thể điều phối các tiểu chương trình WeChat để thực hiện các dịch vụ tích hợp như đặt món, gọi xe, đặt vé, mua sắm và các dịch vụ sống tại địa phương.
Ngoài ra, WeChat cũng đang thử nghiệm thiết lập kết nối Agent-to-Agent với các nhà sản xuất điện thoại như Honor và Xiaomi, để cho phép các Agent của nhà sản xuất điện thoại gọi đến các khả năng cơ bản của WeChat. Nói cách khác, các nhà sản xuất điện thoại cũng sẽ trở thành các cổng vào mới trong hệ sinh thái Agent của WeChat, tạo nên kiến trúc nhiều cổng vào chia sẻ một hệ sinh thái Agent duy nhất.
Plugin Agent của OpenAI có thể đóng gói đầy đủ các công cụ, kiến thức và kỹ năng cần thiết cho một vị trí. Ví dụ, plugin sản xuất sáng tạo có thể tạo ra campaign board, các biến thể quảng cáo hiển thị, hình ảnh phong cách sống sản phẩm và bộ sưu tập hình ảnh thương mại điện tử, đồng thời có thể gọi các công cụ như Figma, Canva, Shutterstock, Picsart, Fal. Hiểu đơn giản, đây là một hệ thống truyền nghề được chuẩn bị sẵn cho Agent.

Hiện tại, plugin Agent của Codex đã bao phủ 62 ứng dụng phổ biến và 110 kỹ năng. Trong tương lai, OpenAI mong muốn mở rộng hệ sinh thái plugin cho các đối tác, cho phép bên thứ ba tạo và triển khai trực tiếp plugin của riêng họ trên Codex và ChatGPT.
Bối cảnh trở nên quan trọng hơn
Yao Shunyu cho biết, các mô hình ngày càng trở nên thành thạo trong việc chuyển đổi đầu vào phức tạp thành đầu ra, nhưng điều kiện tiên quyết là chúng phải nhận được đầu vào đủ tốt. Điều này đòi hỏi ở phía người dùng phải cung cấp đủ thông tin chi tiết và hữu ích cho mô hình và Agent, để mô hình và Agent có thể hiểu được các câu hỏi then chốt như “Bạn là ai”, “Bạn đang làm gì”, và “Đáp án nào có giá trị với bạn” nhằm định hướng đúng đường đi.
Trong quá trình phát triển, việc phát triển sản phẩm AI cũng cần có sự giao tiếp ngữ cảnh đầy đủ. Trong cuộc trao đổi tại sự kiện trên, Yao Shunyu và Tang Daosheng nhấn mạnh rằng việc phát triển sản phẩm AI cần dựa trên phản hồi sản phẩm để xác định mô hình nên khen thưởng hay trừng phạt điều gì, câu trả lời nào là tốt, hành vi nào là kém. Điều này có nghĩa là đội ngũ mô hình và đội ngũ sản phẩm cần thông qua một quá trình chia sẻ ngữ cảnh để thực hiện Co-Design, cùng nhau tạo ra trải nghiệm tốt hơn.
Do đó, tại phía người dùng, sản phẩm AI cần kết nối và tích lũy thông tin ngữ cảnh từ nhiều nguồn, sau đó xác định thông tin nào nên cung cấp và thông tin nào không nên cung cấp để đồng bộ hóa ý định nhiệm vụ với Agent; tại phía phát triển, cần xây dựng cơ chế phản hồi trơn tru để đồng bộ hóa mục tiêu phát triển giữa đội ngũ mô hình và đội ngũ sản phẩm, từ đó tăng tốc tối ưu hóa trải nghiệm.
Việc tích lũy ngữ cảnh từ phía người dùng lẫn chia sẻ ngữ cảnh từ phía phát triển không chỉ là vấn đề kỹ thuật mà còn là vấn đề tổ chức, cần được thực hiện thông qua sự phối hợp để đạt được tích lũy và chia sẻ ngữ cảnh.
Đó cũng là lý do tại sao OpenAI đã bắt đầu tái cấu trúc đội ngũ từ tháng 1 năm nay để tăng cường sự hợp tác chặt chẽ giữa đội ngũ sản phẩm và các nhà nghiên cứu phụ trách các mô hình nền tảng liên quan; sau đó lại sáp nhập các đội ngũ ChatGPT, Codex và API thành một bộ phận do Thibault Sottiaux phụ trách.
Đồng thời, việc coi trọng ngữ cảnh có thể còn thúc đẩy quá trình chuyển đổi phần cứng thành agent, biến phần cứng thành một phương tiện hiệu quả để agent thu thập ngữ cảnh người dùng. Dự án Project Solara của Microsoft đang tiến hành khám phá này. Giao tiếp mọi lúc mọi nơi không phải là mục đích duy nhất để phát triển thiết bị đầu cuối desktop và thiết bị đeo thân cho agent; mục đích lớn hơn là cung cấp thêm nhiều ngữ cảnh để agent thực hiện nhiệm vụ trong các bối cảnh desktop và di động.
Trong vài năm qua, ngành AI đã thể hiện một lộ trình công nghệ tương đối rõ ràng: tiền huấn luyện → hậu huấn luyện → Agent → Coding Agent. Lộ trình này có thể không phải là tuyến đường duy nhất trong tương lai, nhưng lại là tuyến đường hiệu quả nhất mà các công ty lớn có thể nắm bắt hiện nay.
Bốn xu hướng chúng tôi đúc rút được là những tọa độ cơ sở liên kết chặt chẽ theo lộ trình cố định, cuối cùng đều nhằm mục tiêu giúp Coding Agent mở rộng sang các kịch bản phổ quát. Đây lại là một cuộc cạnh tranh ở cấp độ hệ thống.
