AI của WeChat cuối cùng cũng đã hành động.
Cùng ngày với WWDC của Apple, WeChat đã thực hiện một hành động có thể quan trọng hơn Apple, công bố một thông báo giản dị: “Hướng dẫn về việc nhà phát triển tích hợp vào hệ sinh thái AI của WeChat”.

Từ hôm nay, các nhà phát triển tiểu chương trình có thể cấp quyền để AI của WeChat thực hiện việc đọc, thao tác và gọi các chức năng của tiểu chương trình.
WeChat cung cấp hai phương thức tích hợp: một là "chế độ tự động", với ngưỡng gần như bằng không, nhà phát triển chỉ cần bật một công tắc, nền tảng sẽ tự động đọc mã nguồn, phân tích trang web, hiểu rõ tiểu chương trình có thể làm gì, sau đó AI có thể trực tiếp thực hiện thao tác mà không cần viết một dòng mã nào.
Một loại khác gọi là «chế độ phát triển», các nhà phát triển tự phát triển Skill tùy chỉnh, sau khi được duyệt sẽ được AI gọi đến. Cả hai chế độ đều có thể được kích hoạt đồng thời. Meituan đã công bố tích hợp.
Điều này không chỉ đơn thuần là một tính năng mới được ra mắt, mà còn cho thấy WeChat đang biến toàn bộ hệ sinh thái của nó—hàng triệu tiểu chương trình, WeChat Pay, thông báo dịch vụ, tài khoản công chúng—thành lớp thực thi của AI.
Khám phá tài liệu Skill,微信 AI gọi小程序 như thế nào
Tài liệu mở của WeChat đã công bố tiêu chuẩn kỹ thuật kết nối tiểu chương với kỹ năng AI; hãy xem kỹ, bên trong chứa nhiều chi tiết thiết kế.
Hướng dẫn tài liệu kỹ năng chính thức👇🏻:
https://developers.weixin.qq.com/miniprogram/dev/ai/best-practices.html

Về mặt kiến trúc, những người từng phát triển AI sẽ lập tức nhận ra rằng, về bản chất đây chính là MCP. Tệp mcp.json khai báo chức năng và tham số của từng giao diện nguyên tử, SKILL.md mô tả toàn bộ quy trình nghiệp vụ được thực hiện ra sao, hoàn toàn giống hệt kiến trúc MCP+Skills trong Claude, Cursor và VS Code. WeChat không xây dựng lại từ đầu mà trực tiếp áp dụng tiêu chuẩn đang được ngành công nghiệp hội tụ.
Trong kế hoạch hướng dẫn, WeChat đã đưa ra một hệ thống "trọng số chú ý" rất rõ ràng. Khi AI quyết định gọi giao diện nào và tạo tham số gì, nó ưu tiên xem xét đầu tiên là content trả về từ giao diện (năm sao), tiếp theo là mô tả giao diện và mô tả tham số trong mcp.json (bốn sao), còn SKILL.md xếp cuối cùng (ba sao). Điều này có nghĩa là vị trí mà nhà phát triển viết ra quan trọng hơn nội dung đã viết — cùng một quy tắc, nếu được viết trong content trả về của giao diện và nếu được viết trong SKILL.md, AI sẽ gán trọng số hoàn toàn khác nhau.

Ở cấp độ trả về giao diện, có một quy tắc cốt lõi: cấu trúc hai phần “Sự thật + Hành động”. Trước tiên, hãy thông báo cho AI “đã xảy ra điều gì”, sau đó mới chỉ dẫn “bước tiếp theo cần làm gì”. Nếu chỉ ghi hành động mà không nêu sự thật, AI có thể hiểu “hiển thị thẻ” là “chuẩn bị gọi giao diện tiếp theo” và bỏ qua xác nhận của người dùng. Đây là một quy tắc được đúc kết sau nhiều lần gặp lỗi.

Thứ tư, ưu tiên truyền tham số bằng ID thay vì ngôn ngữ tự nhiên. Lấy ví dụ cảnh tượng "đặt cà phê" trong hình, sau khi người dùng đưa ra yêu cầu, AI sẽ hiểu ý định mơ hồ, lựa chọn, thay đổi thông số kỹ thuật và xử lý thanh toán, tất cả đều diễn ra trong khung hội thoại.
Thiết kế này cho thấy WeChat đã trải qua đủ nhiều trường hợp thực tế, hiểu rõ những bẫy khi AI gọi dịch vụ bên ngoài, và đã cố định những kinh nghiệm này thành tiêu chuẩn dành cho nhà phát triển.
Thực tế, nếu so sánh với các ứng dụng nhỏ của WeChat và ứng dụng của Apple, cũng đều nổi tiếng với “hệ sinh thái”, WeChat có một “góc nhìn của Chúa” đối với hệ sinh thái của chính mình, đây là tiền đề cho mọi thứ được thực hiện.
Làm thế nào để quan trọng hơn AI của Apple
Phiên bản Siri AI mới mà Apple phát hành tại WWDC năm nay, dù sử dụng Google Gemini làm nền tảng và hỗ trợ tạo Shortcuts bằng ngôn ngữ tự nhiên, lại không thu hút nhiều sự bàn luận.

Khi quan sát kỹ, bạn sẽ thấy sự khác biệt: Apple đang tạo ra việc AI điều phối một số tính năng gốc trong hệ điều hành iOS, nhưng khi liên quan đến các ứng dụng bên thứ ba, những ứng dụng được cài đặt trên điện thoại của bạn, nó sẽ trở nên lúng túng.
Ví dụ như Ele.me, mã của nó chạy trên máy chủ riêng của Ele.me, Apple không thể truy cập được. Để Siri có thể gọi đến Ele.me, các kỹ sư của Ele.me phải chủ động kết nối với giao diện App Intents, từng cái một, đàm phán và tích hợp từng cái một, tốn rất nhiều thời gian và công sức.

Và WeChat thực hiện việc để AI trực tiếp điều khiển hàng triệu dịch vụ bên thứ ba, vì các tiểu chương trình không giống nhau. Mã của từng tiểu chương trình, từ khi nhà phát triển nộp lên, đến khi WeChat kiểm duyệt, và cuối cùng chạy trên điện thoại người dùng, đều nằm hoàn toàn trong hệ sinh thái công nghệ của WeChat. WeChat có thể quét mã một lần trong giai đoạn kiểm duyệt, tự động phân tích “tiểu chương trình này có những trang nào, có thể làm những việc gì, đầu vào và đầu ra là gì”.
Vì vậy, chế độ “tự động” mới có thể hoạt động—nhà phát triển không cần viết một dòng mã nào, chỉ cần bật công tắc, WeChat tự động dịch ứng dụng tiểu chương của bạn thành công cụ có thể được AI gọi đến. Hạ tầng nền tảng của WeChat có khả năng tự nhiên hỗ trợ điều này, nó sở hữu “góc nhìn của Chúa”, có thể thực hiện điều phối dựa trên mô hình tập trung.
Ưu điểm của kiến trúc này, Apple không có, Google cũng không có.
Cũng đáng chú ý là gần đây có tin đồn rằng WeChat đang hợp tác với Huawei, Honor, Xiaomi, OPPO và vivo để triển khai khả năng trợ lý A2A (Agent-to-Agent), cho phép người dùng khởi động cuộc gọi âm thanh hoặc video trên WeChat hoặc gửi tin nhắn trực tiếp thông qua trợ lý giọng nói trên điện thoại.

Bên trong, AI của WeChat có thể truy cập hàng triệu tiểu chương trình; bên ngoài, trợ lý AI của các nhà sản xuất điện thoại di động có thể truy cập WeChat. WeChat đang trở thành bộ kết nối siêu cấp thời đại AI, trở thành trung tâm dịch vụ mà mọi AI đều có thể kết nối.
Lời tiên tri cũ về “WeChat OS”
Khi ra mắt ứng dụng nhỏ, nhiều người đùa rằng WeChat đang làm “WeChat OS”. Lúc đó, điều này giống như một phép ẩn dụ—ứng dụng nhỏ thay thế một phần chức năng của các ứng dụng, nhưng về bản chất vẫn là một “nền tảng ứng dụng nhẹ”.
Điều ngẫu nhiên hơn là cơ chế kiểm duyệt tập trung được thiết kế lúc đó nhằm kiểm soát chất lượng và bảo mật. Nhưng chín năm sau, thiết kế từng bị chỉ trích là “quản lý quá mức” lại vô tình trở thành lợi thế hạ tầng trong thời đại AI. Hệ sinh thái ứng dụng phân tán (Apple/Android) lúc đó trông có vẻ “tự do” hơn, nhưng giờ lại trở thành rào cản trong việc tích hợp AI.

Một lời tiên tri cũ đã có sự thay đổi đột phá do sự xuất hiện của công nghệ thời đại mới — AI.
Khi trước viết về OpenClaw và Feishu, tôi đã đưa ra một nhận định: IM là cổng vào tự nhiên nhất cho AI Agent, vì hội thoại chính là cách tương tác tự nhiên nhất giữa con người và AI, trong khi hệ sinh thái dịch vụ tích hợp sẵn của IM (robot, thanh toán, tiểu chương trình) giúp AI không chỉ có thể “nói chuyện” mà còn có thể “làm việc”. Feishu đang tiến về hướng này bằng cách ra mắt Bot API được nâng cấp và nút AI Agent.

Tuy nhiên, Feishu là công cụ hợp tác doanh nghiệp, tập trung vào các bối cảnh văn phòng. WeChat lại có phạm vi hoàn toàn khác biệt – 1,432 tỷ người dùng hoạt động hàng tháng, hàng trăm ứng dụng tiểu chương trình trong nhiều lĩnh vực chuyên biệt, từ đặt đồ ăn, đặt lịch khám bệnh, mua vé máy bay đến nộp tiền điện nước, gần như bao phủ toàn bộ nhu cầu dịch vụ trong cuộc sống hàng ngày của một người.

Nếu AI của WeChat thực sự có thể gọi trơn tru các tiểu chương trình này để hoàn thành nhiệm vụ, thì như lời tiên tri đã nói, nó đã trở thành một hệ điều hành điều khiển bằng ngôn ngữ tự nhiên.
Người dùng nói: “Giúp tôi đặt vé tàu cao tốc từ Bắc Kinh đến Thượng Hải vào lúc 3 giờ chiều ngày mai”, AI phân tích ý định, gọi小程序 12306 để tra vé, chọn ghế, hoàn tất đặt vé thông qua WeChat Pay, toàn bộ quy trình không cần rời khỏi WeChat. Chuỗi quy trình này về lý thuyết có thể vận hành được ngay hôm nay.
Tất nhiên, vẫn còn khoảng cách giữa lý thuyết và thực tế. Việc AI gọi các dịch vụ liên quan đến cảnh thanh toán yêu cầu mức độ sai sót gần như bằng không—bấm nhầm một ly cà phê là chuyện nhỏ, nhưng mua nhầm một vé máy bay lại là chuyện lớn. Yêu cầu về độ chính xác của mô hình nền tảng cao hơn nhiều so với các cảnh hội thoại. Đây cũng là điểm nghẽn chung mà các AI Agent toàn cầu đang đối mặt: từ “có thể trò chuyện” đến “có thể làm việc”, khoảng cách giữa chúng không phải là các chỉ số kỹ thuật, mà là sự tin tưởng.

Nhưng WeChat ít nhất đã làm đúng một việc: nó không xây dựng mạng lưới dịch vụ từ con số không. Trong những năm qua, những gì ChatGPT làm là bắt đầu với một bộ não thông minh, sau đó từng bước kết nối với Shopify, DoorDash, Stripe, mỗi kết nối đều được xây dựng từ con số không, và cho đến nay, tỷ lệ các truy vấn liên quan đến giao dịch vẫn chưa vượt quá 3%.
Những thay đổi thực sự sẽ xảy ra, đối với đa số người dùng, có thể diễn ra một cách lặng lẽ. Một ngày nào đó, bạn gõ một câu trong WeChat: “Giúp tôi đặt vé đi Thượng Hải lúc 9 giờ tối nay”, và nó đã được đặt xong, bạn thậm chí không biết đằng sau đã gọi ứng dụng nhỏ nào hay thực hiện quy trình thanh toán gì.
Sự hoàn thành “không cảm nhận được” này mới là dấu hiệu thực sự cho thấy AI Agent đã trưởng thành, và WeChat đang tiến gần đến bước này hơn bất kỳ ai khác.
Bài viết này đến từ tài khoản chính thức WeChat của APPSO, tác giả: APPSO – Khám phá sản phẩm của tương lai
