Xiaohongshu AI Skill vượt qua các quy tắc gán nhãn AI bằng cách sử dụng hiển thị HTML

Tháng 2 năm 2026, Xiaohongshu ra thông báo yêu cầu các nội dung tổng hợp do AI tạo ra phải tự động ghi nhãn; các nội dung không được ghi nhãn sẽ bị hạn chế phân phối. Hơn ba tháng sau, một dự án mã nguồn mở có tên guizang-social-card-skill xuất hiện trên GitHub, chuyên tạo hình ảnh 3:4 cho Xiaohongshu và bìa公众号. Phương pháp kỹ thuật của nó có một lựa chọn bất thường: không sử dụng bất kỳ mô hình AI nào để tạo pixel hình ảnh, toàn bộ khung hình được render bằng HTML+CSS, hình ảnh minh họa được truy xuất từ các thư viện ảnh thực tế như Unsplash. Đầu ra không phải là “hình ảnh do AI tạo ra”, mà là một ảnh chụp màn hình trang web được raster hóa bởi trình duyệt.

Lựa chọn này tương ứng với một thay đổi cụ thể. Kể từ năm 2026, Xiaohongshu đã triển khai mô hình nhận diện âm thanh-hình ảnh, thông qua phân tích quy luật phân bố pixel hình ảnh và đặc điểm âm thanh để phát hiện nội dung AIGC. Trong cùng giai đoạn, đã xử lý hơn 800.000 tài khoản AI và gần 150.000 bài viết giả mạo AI. Đối với những người sáng tạo nội dung cần sản xuất hình ảnh và văn bản với tần suất cao, xác suất bị phát hiện và gắn nhãn các hình ảnh được tạo bởi Midjourney hoặc Canva AI đang liên tục tăng lên. Skill của Cáng Shīfù đã chọn con đường khác: để AI đưa ra quyết định về bố cục, và giao lại các pixel cuối cùng cho động cơ render và thư viện ảnh thực tế.

Đây là một sự tránh né kỹ thuật có chủ ý. Nhưng biện pháp này có thể đi xa đến đâu, phụ thuộc vào mức độ linh hoạt trong định nghĩa của nền tảng đối với cụm từ “nội dung tổng hợp do AI tạo ra”.

28 bố cục khung, AI phụ trách logic bố trí chứ không phải vẽ tranh

Cáng Shīfù có tên thật là Guī Zàng, trước đây đã phát hành guizang-ppt-skill, cũng là một công cụ AI hướng đến bối cảnh sắp xếp văn bản và hình ảnh. Lần này, social-card-skill có định vị tập trung hơn: dành cho hình ảnh 3:4 trên Xiaohongshu, tiêu đề 1:1 và 21:9 trên WeChat Official Account, với độ phân giải đầu ra lần lượt là 1080×1440, 1080×1080 và 2100×900.

Về mặt kiến trúc kỹ thuật, Skill này tích hợp 28 mẫu khung bố cục, được chia thành hai hệ thống trực quan: Editorial (phong cách tạp chí, 16 mẫu) và Swiss (phong cách Thụy Sĩ quốc tế, 12 mẫu), kèm theo 10 bộ preset màu chủ đề. Sau khi người dùng nhập điểm đến, lịch trình hoặc chủ đề ghi chú, AI sẽ chọn mẫu khung phù hợp, xác định vị trí văn bản và xử lý các tham số ghi chú bản đồ, sau đó ghi lại tất cả các quyết định thiết kế dưới dạng HTML+CSS. Bộ máy render Playwright sẽ tiếp nhận các bước tiếp theo, chụp ảnh từng trang và xuất ra định dạng PNG.

Một thành phần cực kỳ hữu ích cho các blogger du lịch là mô-đun bản đồ. Nó sử dụng MapLibre để tải các tile thực tế từ OpenStreetMap, hỗ trợ đánh dấu nhiều địa điểm và nối chúng bằng đường thẳng. Người dùng chỉ cần cung cấp tên thành phố hoặc điểm tham quan, AI sẽ tự động tạo bản đồ nền có chú thích và nhúng vào bố cục. Quy trình nguồn hình ảnh đi kèm có thứ tự ưu tiên rõ ràng: ảnh do người dùng cung cấp được ưu tiên cao nhất; khi không có ảnh của người dùng, hệ thống sẽ tự động tìm kiếm hình ảnh theo thứ tự Unsplash → Pexels → Flickr CC → Wallhaven.

Toàn bộ quy trình được thực hiện qua bảy bước: Intake (tiếp nhận đầu vào) → Style & Theme (xác định phong cách và chủ đề) → Layout Selection (chọn bố cục) → Asset Prep (chuẩn bị tài nguyên) → Compose & Render (sắp xếp và render) → Deliver & Review (giao hàng và kiểm tra) → Iterate (lặp lại điều chỉnh). Mỗi bước đều được ghi lại trong file .poster trong thư mục task. Khi render hàng loạt, chạy node render.mjs, Playwright sẽ render từng cái một. Ngoài ra, có một script kiểm tra validate-social-deck.mjs đo lường các phần tử DOM trong môi trường trình duyệt thật, phát hiện các sự cố bố cục như tràn văn bản, cỡ chữ vượt ngưỡng, va chạm thành phần footer, v.v.

Mục tiêu thiết kế của cơ chế này rất rõ ràng: chính xác và kiểm soát được như phần mềm bố cục in ấn, chứ không phải tự do nhưng không thể dự đoán được như mô hình khuếch tán. Giá phải trả là sự tự do sáng tạo bị giới hạn trong 28 ô. Đối với những người sáng tạo phụ thuộc vào phong cách nhiếp ảnh cá nhân, các yếu tố vẽ tay hoặc dán ghép không đều, những khung bố cục này không mang lại hiệu quả tăng lên, mà là sự ràng buộc trong thiết kế.

Về mức độ khó sử dụng, phiên bản CLI yêu cầu cài đặt Playwright và môi trường Node, đồng thời cần có quyền truy cập API của Claude Code hoặc Codex. Ngoài ra, có một phiên bản web tại xiaohongshu.guizang.ai dành cho người dùng không phải lập trình viên, nhưng chưa có thông tin so sánh công khai nào về mức độ đầy đủ tính năng giữa phiên bản web và phiên bản CLI. Các bài đăng trên X và README được cập nhật liên tục của nhà phát triển cho thấy dự án vẫn đang trong giai đoạn phát triển nhanh.

Pixel không đến từ mô hình tạo sinh, nhưng tuân thủ không đồng nghĩa với an toàn dài hạn

The AI content detection logic on Xiaohongshu, based on publicly available information and technical documentation, primarily relies on audio-visual recognition models. This model determines whether content is AI-generated by analyzing the pixel distribution patterns in images. Diffusion models and GANs leave specific statistical signatures at the pixel level when generating images, which differ from the natural lighting, lens distortion, and noise patterns captured by camera sensors. The training objective of the audio-visual recognition model is precisely to detect these inconsistencies in statistical patterns.

Logic tránh của Skill được xây dựng dựa trên một sự phân biệt quan trọng: các pixel của hình ảnh mà nó tạo ra không đến từ bất kỳ mô hình sinh nào. Công cụ render HTML raster hóa các kiểu CSS, tạo ra đặc điểm phân bố pixel gần với ảnh chụp màn hình giao diện trình duyệt hoặc đầu ra của phần mềm bố cục trên máy tính để bàn. Các phần ảnh chụp được lấy từ các thư viện hình ảnh như Unsplash, là những hình ảnh thực tế do máy ảnh chụp và qua xử lý hậu kỳ bởi con người, không mang dấu vết của mô hình khuếch tán.

Tuy nhiên, sự phân biệt này chỉ đúng nếu phạm vi định nghĩa của nền tảng về “nội dung tổng hợp do AI tạo ra” đúng ngay tại đường ranh giới “pixel do mô hình AI tạo ra”. Tuyên bố chính thức của Xiaohongshu sử dụng cụm từ “nội dung tổng hợp do AI tạo ra”, và phạm vi bao phủ trong bản gốc không hề hẹp. Một khi nền tảng mở rộng định nghĩa sang “đầu ra từ chương trình render được hỗ trợ bởi AI” hoặc đưa các đặc điểm render trình duyệt của hình ảnh HTML rasterized vào bộ dữ liệu huấn luyện mô hình nhận diện, lợi thế công nghệ hiện tại của giải pháp này sẽ biến mất.

Nền tảng có cơ sở kỹ thuật và động lực quản trị được định nghĩa mở rộng. Mô hình nhận diện âm thanh-hình ảnh đang liên tục được cải tiến. Nếu dữ liệu huấn luyện bao gồm nhiều mẫu so sánh giữa hình ảnh được render bằng HTML và hình ảnh do AI tạo ra, mô hình có thể học cách phân biệt “đặc điểm chống răng cưa subpixel do trình duyệt render phông chữ” với “các khối pixel bất thường do GAN tạo ra khi sinh chữ”. Hiện chưa có thông tin công khai nào cho thấy Xiaohongshu đã khởi động việc huấn luyện theo hướng này, nhưng dựa trên giới hạn năng lực của mô hình, sự mở rộng này là hợp lý về mặt kỹ thuật.

Điều cần lưu ý hơn là các yếu tố tuân thủ liên quan đến việc lưu trữ ứng dụng tiện ích. Hiện chưa có bất kỳ tài liệu chính thức nào cho thấy Skill này đã đăng ký mã mô hình hoặc hoàn thành các thủ tục đăng ký tuân thủ liên quan. Nếu nền tảng thêm yêu cầu truy xuất nguồn gốc chuỗi công cụ tạo hình trong quy trình kiểm duyệt nội dung, việc thiếu thông tin đăng ký có thể trở thành điểm chặn mới.

API template engine, platform customization tools, and HTML rendering are branching into three separate paths.

Khi quan sát các công cụ trên thị trường tạo hình ảnh cho mạng xã hội, có thể thấy chúng đang phân hóa thành ba hướng công nghệ khác nhau. Mỗi hướng đối mặt với cấu trúc rủi ro kiểm duyệt khác nhau.

Mô hình AI tạo hình ảnh trực tiếp. Con đường này đại diện cho tính năng Magic Design do Canva AI ra mắt vào tháng 4 năm 2026, cho phép tạo bản thiết kế bao gồm các yếu tố hình ảnh AI trực tiếp từ các từ khóa văn bản. Hình ảnh được tạo bởi các mô hình như Midjourney, DALL·E cũng thuộc phạm vi này. Vấn đề rõ ràng: những hình ảnh này là mục tiêu chính để các mô hình nhận diện âm thanh và hình ảnh phát hiện. Cách Canva ứng phó là khuyến khích ghi chú minh bạch, thay vì tránh né việc phát hiện. Trên Xiaohongshu, chưa có dữ liệu công khai xác nhận liệu các bài đăng sử dụng AI tạo hình ảnh có bị giảm trọng số đề xuất sau khi được ghi chú hay không, nhưng chính sách của nền tảng về “hạn chế phân phối nội dung AI không được ghi chú” đã trở thành chính sách cố định. Mỗi lần cập nhật phiên bản mô hình khuếch tán, các đặc trưng thống kê pixel có thể thay đổi, và mô hình phát hiện tương ứng cũng sẽ được cập nhật đồng bộ, khiến người sáng tạo phải đối mặt với một mục tiêu liên tục di chuyển.

API template engine rendering. Bannerbear is a typical example of this approach. Users create templates in a designer, pass JSON data via REST API to modify layer variables, and the server renders output as PNG or JPG. Its core is still "programmatic rendering" rather than "model-generated pixels," and the output contains no traces of diffusion models. The difference from Zang Shifu Skill lies in: Bannerbear templates rely on human design, with AI not involved in layout decisions; Zang Shifu Skill allows Claude to directly read and write HTML, delegating layout choices to AI. The risk of the Bannerbear solution lies in another dimension: when numerous accounts use identical templates, colors, and fonts to produce graphics, even if no image is AI-generated, platforms may trigger "programmatic bulk production" pattern recognition. The triggering conditions for anti-spam rules are not identical to AI detection, but for creators operating bulk accounts, the result is the same—restricted distribution.

Tạo tùy chỉnh cho nền tảng. Pin Generator được thiết kế riêng cho Pinterest, tự động tạo ra các hình Pin phù hợp với sở thích thuật toán của nền tảng. Hạt nhân của phương án này không phải là tránh né, mà là hoàn toàn thích ứng—kích thước, phong cách trực quan và nhịp độ đăng bài đều tuân thủ quy chuẩn của nền tảng. Ưu điểm là rủi ro kiểm duyệt thấp nhất, nhưng nhược điểm cũng rất rõ ràng: khả năng công cụ bị ràng buộc chặt chẽ vào quy tắc nền tảng; khi Pinterest điều chỉnh thuật toán hoặc hạn chế truy cập API của bên thứ ba, công cụ sẽ ngay lập tức ngừng hoạt động. So với Skill của Tàng Sư, cái trước là công cụ dành riêng cho nền tảng, còn cái sau là giải pháp đa nền tảng. Công cụ dành riêng an toàn hơn nhưng dễ bị tổn thương hơn, giải pháp đa nền tảng linh hoạt hơn nhưng phức tạp hơn—đây là một sự đánh đổi thường xuyên xuất hiện trong lĩnh vực công cụ AI.

Cấu trúc rủi ro của ba phương pháp là khác nhau. AI tạo hình ảnh tự do nhất nhưng mỗi lần cập nhật đều phải đáp ứng các mô hình phát hiện mới. Công cụ mẫu ổn định nhất nhưng có thể bị ảnh hưởng bởi các quy tắc chống rác. HTML rendering nằm ở giữa hai phương pháp này: bố cục được AI linh hoạt kiểm soát, pixel được giao cho trình duyệt và tài liệu thực tế, tránh được việc phát hiện ở cấp độ “pixel do AI tạo ra”, nhưng không thể đối phó với sự mở rộng quy tắc ngữ nghĩa của nền tảng.

Giới hạn của hệ thống bố cục không nằm trong mã nguồn mà nằm ở loại nội dung.

28 mẫu khung bố cục bao phủ hai hệ thống trực quan chính là phong cách tạp chí và phong cách Thụy Sĩ. Đối với các blogger du lịch cần hiển thị lộ trình bản đồ, dòng thời gian hoặc lịch trình nhiều ngày, hệ thống này có độ phù hợp rất cao. Việc ghi chú bản đồ và nối các chặng hành trình là thông tin cốt lõi của những ghi chú này, và các mẫu khung bố cục đã cấu trúc hóa thông tin đồng thời duy trì cảm giác chuyên nghiệp trong bố cục.

Nhưng hệ sinh thái nội dung trên Xiaohongshu phong phú hơn nhiều so với các hướng dẫn du lịch. Các bài viết về trang phục phụ thuộc vào phong cách nhiếp ảnh cá nhân và tông màu, các bài đánh giá mỹ phẩm yêu cầu hình ảnh vi mô độ phân giải cao và hình ảnh so sánh sản phẩm, trong khi nội dung về lối sống sử dụng rất nhiều hình ảnh ghép và ghi chú viết tay. “Bố cục” của những loại nội dung này không phải là sự trình bày có cấu trúc thông tin, mà là sự biểu đạt thẩm mỹ và cảm xúc cá nhân. 28 cấu trúc bố cục trong bối cảnh này không phải là công cụ, mà là sự ràng buộc.

Các hạn chế về mặt kỹ thuật cũng là thực tế. Hiện tại hỗ trợ ba kích thước: 1080×1440 (Xiaohongshu 3:4), 2100×900 (WeChat Official Account 21:9) và 1080×1080 (WeChat Official Account 1:1). Không hỗ trợ hình bìa dọc 9:16 của Douyin và hình bìa ngang 16:9 của Bilibili. Thư viện hình ảnh dựa vào Unsplash và Pexels, hai nền tảng này có tài nguyên thiên về ảnh chụp chất lượng cao, phù hợp với nhu cầu minh họa du lịch, cảnh quan và kiến trúc thành phố. Tuy nhiên, các hình ảnh phổ biến cho nội dung chuyên sâu như close-up món ăn, sắp xếp mỹ phẩm, hoặc trang phục cá nhân có độ bao phủ hạn chế trong các thư viện này. Chiến lược ưu tiên hình ảnh của người dùng có thể phần nào giảm nhẹ vấn đề này, với điều kiện người sáng tạo đã tích lũy đủ lượng hình ảnh thực tế.

Cơ chế xác thực là một con dao hai lưỡi. validate-social-deck.mjs có thể ngăn chặn các sự cố định dạng trước khi tạo hình ảnh, đảm bảo 100 lần tạo hàng loạt không xảy ra lỗi. Điều này là sự đảm bảo về hiệu suất trong các tình huống vận hành yêu cầu tạo hàng chục hình ảnh mỗi ngày. Nhưng nó cũng có nghĩa là bất kỳ thiết kế nào không tuân theo quy tắc định dạng đã định trước đều sẽ bị script từ chối. Những người sáng tạo muốn thêm một yếu tố văn bản nghiêng hoặc lề tùy chỉnh vào định dạng chuẩn không thể điều chỉnh bằng cách kéo thả như trên Canva, mà cần phải chỉnh sửa trực tiếp mã nguồn HTML và CSS.

Rào cản triển khai tại chỗ là một điểm phân tầng khác. Những người sáng tạo có thể chạy các script Playwright và Node có thể đi sâu vào khung bố cục và script hiển thị để tùy chỉnh. Tuy nhiên, đối với phần lớn người dùng Xiaohongshu, họ chỉ có thể tiếp cận một tập con các chức năng của giao diện web. Sự khác biệt về giá trị thực tế mà hai nhóm người dùng này nhận được từ Skill này là rất lớn. Nhóm người dùng cốt lõi của dự án mã nguồn mở là những người sáng tạo và nhà phát triển sẵn sàng tìm tòi, có nền tảng kỹ thuật, chứ không phải nhu cầu “một cú nhấp để tạo hình ảnh” của những người sản xuất nội dung thông thường.

Không có câu trả lời vạn năng, nhưng sự phân hóa của các tuyến đường công nghệ đã tự nói lên vấn đề

Một blogger du lịch trên Xiaohongshu đối mặt với ba lựa chọn: dùng Midjourney tạo hình ảnh phong cách minh họa cho lịch trình, chịu rủi ro bị gắn nhãn và giảm quyền hạn; dùng Bannerbear thiết lập mẫu và tự động nhập dữ liệu hàng ngày, chịu rủi ro phản spam do tính đồng nhất của mẫu; hoặc dùng Skill của Tạng Sư Phụ, để AI chọn bố cục rồi render hình ảnh bằng HTML, chịu rủi ro nền tảng mở rộng định nghĩa “nội dung tổng hợp”. Không có lựa chọn an toàn, chỉ có sự kết hợp khác nhau của các cấu trúc rủi ro.

Chính cấu trúc này đang truyền tải một thông điệp: cuộc đối kháng và lặp lại giữa nền tảng và các công cụ AI đã bắt đầu. Mỗi lần nền tảng cập nhật mô hình phát hiện, chu kỳ lợi ích công nghệ của một loạt công cụ sẽ kết thúc. Mỗi khi có công cụ mới tìm ra cách vượt qua, nền tảng lại điều chỉnh chiến lược. Đây không phải là một quá trình sẽ hội tụ về trạng thái ổn định. Thời hạn hiệu lực của giải pháp hiển thị HTML phụ thuộc vào việc mô hình nhận diện âm thanh-hình ảnh của Xiaohongshu sẽ tiếp tục tập trung vào “đặc điểm pixel của mô hình khuếch tán” hay mở rộng sang “tất cả các pixel không phải ảnh gốc”.

Đối với các nhà sáng tạo nội dung, việc phân biệt giữa “AI hỗ trợ” và “AI thay thế” đang trở nên thiết thực. Thái độ của nền tảng đã rõ ràng: khuyến khích AI như một công cụ khuếch đại sáng tạo, phản đối việc dùng AI thay thế con người để sản xuất hàng loạt nội dung chất lượng thấp. Trong Skill của Tàng Sư Phụ, AI thực hiện các quyết định định dạng, chứ không tạo nội dung; ảnh là ảnh chụp thực tế, bố cục là khung xương do nhà thiết kế con người đặt sẵn. Điều này đúng nằm trong phạm vi “AI hỗ trợ”. Những bài viết hình ảnh mà toàn bộ nội dung văn bản và hình ảnh đều được tạo ra bởi mô hình sinh tổng hợp mới là đối tượng mà nền tảng rõ ràng muốn ngăn chặn.

Việc phân biệt này có trở thành tiêu chuẩn vận hành của nền tảng trong quá trình kiểm duyệt hay không vẫn chưa rõ ràng. Tuy nhiên, các nhà phát triển công cụ đã đang phản hồi định nghĩa này bằng các lựa chọn kỹ thuật.