Ang Xiaohongshu AI Skill ay naglilipas sa mga patakaran sa pag-label ng AI gamit ang HTML rendering

Noong Pebrero 2026, inilabas ng Xiaohongshu ang isang pahayag na nagsasabing ang lahat ng nilalaman na ginawa ng AI ay kailangang may nakikita at malinaw na pagkilala; ang mga nilalaman na walang pagkilala ay maaaring ma-limitahan sa pagpapamahagi. Tatlo at kalahating buwan pagkatapos, lumabas sa GitHub ang isang open-source na proyekto na tinatawag na guizang-social-card-skill, na espesyal na gumagawa ng 3:4 na mga larawan at cover para sa Xiaohongshu at WeChat Official Accounts. Ang teknikal na paraan nito ay may isang hindi karaniwang pagpili: hindi ginagamit ang anumang AI model upang makagawa ng pixel ng imahe; ang buong larawan ay binubuo lamang ng HTML+CSS, at ang mga imahe ay kinukuha mula sa mga real-world image library tulad ng Unsplash. Ang output ay hindi isang “AI-generated image,” kundi isang screenshot ng isang web page na rasterized ng browser engine.

Ang pagpili na ito ay tumutugon sa isang partikular na pagbabago. Noong 2026, sinimulan na ng Xiaohongshu ang paggamit ng modelo para sa pagkilala sa imahe at audio, na nag-aanalisa ng mga pattern sa distribution ng pixel ng imahe at mga katangian ng audio upang matukoy ang AIGC na nilalaman. Sa parehong panahon, tinanggal na ang higit sa 800,000 AI-managed na account at higit sa 150,000 na fake na post na AI. Para sa mga gumagawa ng nilalaman na nangangailangan ng madalas na paggawa ng text at imahe, ang posibilidad na matuklasan at markahan ang mga imahe na ginawa gamit ang Midjourney o Canva AI ay patuloy na tumataas. Pumili ang Skill ni Zang Shifu ng ibang landas: pahintulutan ang AI na gumawa ng mga desisyon sa layout, at ipagkaloob ang huling pixel sa rendering engine at real-life image library.

Ito ay isang may kamalayang teknikal na pag-iwas. Ngunit gaano kalayo ang maaaring maglakbay ang solusyong ito, ay nakasalalay sa kahalagahan ng platform sa pagkakahulugan ng "AI-generated synthetic content".

28 na layout skeletons, ang AI ay responsable sa layout logic, hindi sa pagguhit

Ang tunay na pangalan ni Zang Shifu ay Guizang, na dati nang naglabas ng guizang-ppt-skill, isang AI tool na dinisenyo para sa mga escena ng pag-layout ng teksto at imahe. Ang bagong social-card-skill ay mas nakatuon: para sa 3:4 na imahe at teksto sa Xiaohongshu, 1:1 at 21:9 na cover sa WeChat Official Account, na nagbibigay ng resolusyon na 1080×1440, 1080×1080, at 2100×900.

Sa teknikal na arkitektura, ang Skill na ito ay may nakabuilt na 28 na template skeletons, na nahahati sa dalawang visual system: Editorial (magazine-style, 16 na template) at Swiss (Swiss Internationalist style, 12 na template), kasama ang 10 set ng pre-set color themes. Pagkatapos mag-input ang user ng destinasyon, itinerary, o paksa ng tala, ang AI ang magpapasya kung anong template skeleton ang gagamitin, kung saan ilalagay ang teksto, at paano i-handle ang mga parameter ng map annotation, at pagkatapos ay isusulat lahat ng desisyon sa design bilang HTML+CSS. Ang Playwright rendering engine ang magpapatuloy sa mga susunod na hakbang, at mag-aabot ng mga screenshot ng bawat pahina bilang PNG.

Ang isang komponente na lubos na kapaki-pakinabang para sa mga travel blogger ay ang map module. Gamit ang MapLibre, ito ay naglo-load ng totoong tiles mula sa OpenStreetMap, at sumusuporta sa maraming location markers at lines. Kailangan lang ng user na magbigay ng pangalan ng lungsod o atraksyon, at ang AI ay awtomatikong mag-generate ng base map na may annotation at i-embed sa layout. Ang kasamang workflow para sa source ng imahe ay may malinaw na prioridad: ang mga real-life photos na ibinigay ng user ang pinakamataas na prioridad; kung walang user image, awtomatikong hahanapin ang mga larawan ayon sa pagkakasunod-sunod: Unsplash → Pexels → Flickr CC → Wallhaven.

Ang buong proseso ay isinasagawa sa pitong hakbang: Intake (pagtanggap ng input) → Style & Theme (pagpili ng istilo at tema) → Layout Selection (pagpili ng layout) → Asset Prep (paghahanda ng mga asset) → Compose & Render (pagsasama at pag-render) → Deliver & Review (pagbibigay at pagsusuri) → Iterate (pagpapalit-palit). Ang bawat hakbang ay nakarehistro sa .poster file sa loob ng task directory. Habang nagpapagawa ng mga imahe sa pamamagitan ng batch, patakbuhin ang node render.mjs, kung saan ang Playwright ay nagrere-render nang isang-isa. Mayroon ding isang script para sa pagsusuri na validate-social-deck.mjs na sumusukat sa mga DOM element sa isang tunay na browser environment upang matukoy ang mga problema sa layout tulad ng sobrang teksto, sobrang laki ng font, at pagkakasalubong ng mga elemento sa footer.

Ang layunin ng mekanismo na ito ay malinaw: mas tiyak at kontrolado tulad ng software para sa pag-print, hindi tulad ng diffusion model na librengunit hindi makabuluhan. Ang gastos ay ang pagkawala ng kalayaan sa pagkamalikhain sa loob ng 28 na kahon. Para sa mga gumagawa na nakadepende sa kanilang personal na istilo ng pagkakakita, mga elemento na kamay na iginuhit, o di-regular na collage, ang mga balangkas ng layout na ito ay hindi nagbibigay ng pagpapabilis kundi pagtatakda sa disenyo.

Sa aspeto ng mga kakailanganin, ang CLI version ay nangangailangan ng pag-install ng Playwright at Node environment, kasama ang pagkuha ng API access para sa Claude Code o Codex. Mayroon ding web-based entry point na xiaohongshu.guizang.ai na para sa mga hindi developer, ngunit ang antas ng kumpletong mga tampok nito kumpara sa CLI version ay wala pa ring publikong komparasyon. Ang ilang mga tweet sa X platform at ang paulit-ulit na pag-update ng README ng developer ay nagpapakita na ang proyektong ito ay patuloy na nasa mabilis na pagpapalawak.

Hindi galing ang pixels mula sa generative model, ngunit ang pagkakasunod ay hindi katumbas ng pangmatagalang kaligtasan

Batay sa mga pampublikong impormasyon at teknikal na mga sanggunian, ang AI content detection logic ng Xiaohongshu ay batay sa mga modelo ng pagkilala sa audio at video. Ang modelo na ito ay nagtataya kung ang isang nilalaman ay gawa sa AI sa pamamagitan ng pagsusuri sa mga pattern ng pixel distribution. Ang mga diffusion models at GAN ay nag-iiwan ng mga partikular na statistical features sa pixel level kapag ginagawa ang mga imahe, at iba ito sa natural na light and shadow, lens distortion, at noise patterns na nakukuha ng camera sensor. Ang layunin ng pagtuturo sa modelo ng pagkilala sa audio at video ay upang matukoy ang mga hindi pagkakapareho sa statistical patterns na ito.

Ang logika ng pag-iwas ni Master Cang ay batay sa isang mahalagang pagkakaiba: ang mga pixel ng mga larawang nilalabas nito ay hindi galing sa anumang generative model. Ang HTML rendering engine ay nagrasterize ng CSS styles, at ang mga karakteristikong pagkakahati-hati ng pixel ay mas malapit sa screenshot ng browser interface o sa output ng desktop publishing software. Ang mga bahagi ng litrato ay galing sa mga tunay na larawan mula sa mga library tulad ng Unsplash, na kinuha ng camera at na-proseso ng tao, at walang mga trace ng diffusion model.

Ngunit ang pagkakaiba na ito ay tumutugon lamang kung ang depinisyon ng platform sa “AI-generated synthetic content” ay eksaktong tumutok sa “pixels na ginawa ng AI model.” Ang opisyal na pahayag ng Xiaohongshu ay gumagamit ng terminong “AI-generated synthetic content,” at ang orihinal na sakop nito ay hindi maliit. Kapag pinalawak ng platform ang depinisyon patungo sa “output mula sa program na rendered na may AI-assisted design,” o kaya ay isinasama sa training set ng recognition model ang mga browser rendering characteristics ng HTML rasterized images, mawawala ang teknikal na benepisyo ng kasalukuyang solusyon.

Ang platform ay may teknikal na batayan at motibasyon sa pamamahala na may malawak na depinisyon. Ang modelo ng pagkilala sa tunog at imahe ay patuloy na inaayos. Kung ang mga sample na naglalaman ng komparasyon sa mga HTML-rendered na imahe at AI-generated na imahe ay isasama sa training data, maaaring matutunan ng modelo ang pagkakaiba sa “mga subpixel anti-aliasing feature ng browser font rendering” at “mga di-regular na pixel blocks sa text generation ng GAN”. Sa kasalukuyan, walang publikong impormasyon na nagpapakita na ang Xiaohongshu ay nagsimula na sa direksyong ito sa pagtuturo, ngunit batay sa hangganan ng kakayahan ng modelo, ang ganitong pagpapalawak ay teknikal na maaaring gawin.

Mas mahalagang tandaan ang mga kompliyans na elemento kaugnay ng pag-host ng maliit na aplikasyon. Wala pa ring makikita na opisyal na dokumento na nagpapakita na ang Skill ay nagsasama ng registration number ng modelo o natapos ang kaugnay na kompliyans na rehistro. Kung dagdagan ng platform ang proseso ng pagsusuri ng nilalaman ng mga kahilingan para sa pagtatawid sa chain ng mga kasangkapan para sa paggawa ng imahe, ang kakulangan sa impormasyon ng rehistro ay maaaring maging bagong punto ng pagtigil.

Ang API template engine, platform customization tools, at HTML rendering ay naglalabas ng tatlong mga branch

Sa pagmamasid sa mga kasangkapan sa merkado na gumagawa ng mga imahe para sa mga sosyal na media, makikita mong sila ay nagkakaroon ng tatlong iba’t ibang teknikal na direksyon. Bawat isa ay nakakaranas ng iba’t ibang istruktura ng panganib sa pagsusuri.

Direkt na paggawa ng imahe ng AI model. Ang path na ito ay kumakatawan sa Magic Design function na ipinakilala ng Canva AI noong Abril 2026, na nagpapagawa ng disenyo na may AI visual elements mula sa text prompts. Ang mga imahe na ginawa ng mga model tulad ng Midjourney at DALL·E ay kabilang din sa kategoryang ito. Malinaw ang tanong: ang mga imahe na ito ay pangunahing layunin ng audio-visual recognition models. Ang tugon ng Canva ay ang pagpapalakas ng transparensya sa pagmarka, hindi ang pag-iwas sa detection. Sa Xiaohongshu, walang pampublikong datos na nagpapatotoo kung ang pagmarka sa mga post na gawa ng AI model ay nagbabawas sa recommendation weight, ngunit ang patakaran ng platform na “limitahan ang pagdistribute ng AI content na hindi nakamarka” ay nasa ilalim na. Bawat pag-update ng version ng diffusion model, maaaring magbago ang pixel statistical features, at kasabay nito ay i-update din ang detection model—ang mga creator ay nakakatugon sa isang patuloy na umuunlad na target.

Pag-render ng API template engine. Ang Bannerbear ay isang karaniwang halimbawa ng ruta na ito. Gumagawa ang mga user ng template sa designer, at ipinapadala ang JSON data sa pamamagitan ng REST API upang baguhin ang mga variable ng layer, at ang server ay nagr-r-render ng output bilang PNG o JPG. Ang core nito ay “programmatic rendering” at hindi “model-generated pixels,” at ang output ay walang mga trace ng diffusion model. Ang pagkakaiba nito sa Skill ng Zang Shifu ay: ang template ng Bannerbear ay nakadepende sa manual na disenyo, at ang AI ay hindi nakikilahok sa desisyon ng layout; samantala, ang Skill ng Zang Shifu ay pinapahintulutan ang Claude na direktang basahin at isulat ang HTML, at ibinibigay ang karapatan sa pagpili ng layout sa AI. Ang panganib ng solusyon ng Bannerbear ay nasa ibang dimensyon: kapag maraming account ang gumagamit ng parehong template, parehong kulay, at parehong font upang lumikha ng mga imahe at teksto, kahit na bawat imahe ay hindi AI-generated, maaaring makapag-trigger ito sa platform ng “programmatic bulk production” pattern recognition. Ang mga kondisyon para sa pag-trigger ng anti-spam rules ay hindi ganap na katumbas ng AI detection, ngunit para sa mga creator na may batch-operated accounts, ang resulta ay parehong limitado ang pagpapalaganap.

Custom-generated by the platform. Ang Pin Generator ay disenyo para sa Pinterest, na awtomatikong lumilikha ng mga Pin na sumusunod sa mga pagkakaiba-iba ng algoritmo ng platform. Ang pangunahing layunin ng ruta ay hindi ang pag-iwas, kundi ang ganap na pagkakasundo—ang sukat, istilo visual, at ritmo ng pagpapalabas ay tugma sa mga pamantayan ng platform. Ang kahusayan ay ang pinakamababang panganib sa pagsusuri, ngunit ang kahinaan ay malinaw: ang kakayahan ng tool ay nakabase sa mga patakaran ng platform; kapag baguhin ng Pinterest ang algoritmo o limitahan ang paggamit ng third-party API, agad itong mawawalan ng paggana. Kumpara sa Skill ni Zang Shifu, ang una ay isang tool na eksklusibo sa platform, habang ang pangalawa ay isang cross-platform na solusyon. Ang eksklusibo sa platform ay mas ligtas ngunit mas vulnerable, habang ang cross-platform ay mas flexible ngunit mas kumplikado—ito ay isang pagpili na paulit-ulit na lumalabas sa larangan ng AI tools.

Ang bawat isa sa tatlong paraan ay may iba’t ibang istruktura ng panganib. Ang AI-generated image ay pinakamalayang opsyon, ngunit ang bawat update ay sumasagot sa bagong detection model. Ang template engine ay pinakamalakas sa pagiging stable, ngunit maaaring maapektuhan ng anti-spam rules. Ang HTML rendering ay nasa gitna ng dalawa: ang layout ay kontrolado nang fleksibleng ng AI, habang ang pixel ay ibinibigay sa browser at sa mga real-life素材, na nag-iwas sa detection sa antas ng “AI-generated pixels,” ngunit hindi kayang harapin ang pagpapalawak ng platform sa antas ng semantiko.

Ang limitasyon ng sistema ng layout ay nasa uri ng nilalaman, hindi sa code.

28 mga template ang sumasakop sa dalawang pangunahing visual system: magazine at Swiss style. Ang sistemang ito ay mataas ang pagkakatugma para sa mga travel blogger na kailangan magpakita ng mga ruta ng mapa, timeline, at maraming araw na itinerario. Ang pagmarka sa mapa at ang pagkonekta ng itinerary ay ang pangunahing impormasyon sa mga tala na ito, at ang mga template ay nag-structure ng impormasyon habang nananatiling propesyonal ang layout.

Ngunit mas mayaman ang ecosystem ng nilalaman sa Xiaohongshu kaysa sa mga travel guide. Ang mga post tungkol sa pagsuot ay nakasalalay sa personal na istilo ng pagkakagawa ng larawan at tono ng kulay, ang mga pagsusuri sa cosmetics ay nangangailangan ng malinaw na mga close-up at larawan ng pagkukumpara ng produkto, at ang mga nilalaman tungkol sa pamumuhay ay gumagamit nang malaki ng mga collage ng maraming larawan at mga tala na isinulat ng kamay. Ang “layout” ng mga uri ng nilalaman na ito ay hindi isang structured na pagpapakita ng impormasyon, kundi isang pagpapahayag ng personal na estetika at emosyon. Ang 28 na mga pangunahing layout ay hindi isang kasangkapan sa ganitong sitwasyon, kundi isang pagkakabawas.

Ang mga teknikal na limitasyon ay totoo rin. Kasalukuyang suportado ang tatlong laki: 1080×1440 (Xiaohongshu 3:4), 2100×900 (WeChat Official Account 21:9), at 1080×1080 (WeChat Official Account 1:1). Hindi suportado ang vertical cover ng TikTok 9:16 at horizontal cover ng Bilibili 16:9. Ang library ay nakabatay sa Unsplash at Pexels, kung saan ang mga materyales ay mas nakatuon sa mataas na kalidad na photography, na angkop para sa mga pangangailangan sa larawan tungkol sa paglalakbay, tanawin, at urban arkitektura. Gayunpaman, ang mga karaniwang materyales para sa mga nakapokus na nilalaman tulad ng pagkain, pagpapakita ng kosmetiko, at mga item sa pagdadamit ay may limitadong coverage sa mga library na ito. Ang pagiging user-generated image-first ay maaaring bahagya lang na lubosin ang problema, basta't may sapat na real-life na mga larawan ang mga tagagawa.

Ang mekanismo ng pag-verify ay isang dalawang-kislap na espada. Ang validate-social-deck.mjs ay nakakapigil sa mga pagkakamali sa layout bago ang paggawa ng imahe, at nagpapakatotoo na walang pagkakamali sa 100 beses na batch rendering. Ito ay isang pangako sa efficiency sa mga operasyonal na sitwasyon kung десять mga imahe ang kailangang i-post araw-araw. Ngunit ito rin ay nangangahulugan na ang anumang disenyo na hindi sumusunod sa mga itinakdang patakaran sa layout ay tatanggihan ng script. Ang mga gumagawa na nais magdagdag ng isang tilted text decoration o custom margin sa standard layout ay hindi makakagawa nito nang libreng pag-drag at drop tulad sa Canva; kailangan nilang i-edit ang HTML at CSS source code nang direkta.

Ang pagkakaroon ng lokal na deployment ay isang iba pang paghahati. Ang mga gumagawa na kayang jalurin ang Playwright at Node scripts ay maaaring magpunta sa mga layout skeleton at rendering scripts para sa customizasyon. Ngunit para sa karamihan sa mga blogger sa Xiaohongshu, ang kanilang maabot ay ang subset ng mga function ng web interface. Ang praktikal na halaga na natatanggap ng dalawang uri ng mga user mula sa Skill na ito ay malaki ang pagkakaiba. Ang pangunahing user base ng open-source project ay ang mga gumagawa at developer na handang mag-experiment at may teknikal na background, hindi ang “one-click image generation” na pangangailangan ng karaniwang content creators.

Walang iisang sagot na sagot, ngunit ang pagkakahati-hati ng teknikal na landas ay nagpapakita na ng problema

Isang travel blogger sa Xiaohongshu ay nakakatok sa tatlong pagpipilian: gamitin ang Midjourney upang lumikha ng mga larawan sa estilo ng illustration, at harapin ang panganib ng pagmarka at pagbaba ng ranking; gamitin ang Bannerbear upang i-set ang template at mag-batch ng data araw-araw, at harapin ang panganib ng pagkakapareho ng template at pagkakakilanlan bilang spam; o gamitin ang Skill ni Zang Shifu, kung saan ang AI ang pipili ng layout at i-render ang larawan gamit ang HTML, at harapin ang panganib na palawigin ng platform ang kahulugan ng “pinagmulang nilalaman.” Walang ligtas na pagpipilian, lamang iba’t ibang kombinasyon ng mga estruktura ng panganib.

Ang sariling istruktura ay nagpapadala ng isang mensahe: ang pagtutol at pagpapabuti sa pagitan ng platform at mga AI tool ay nagsimula na. Sa bawat pag-update ng platform sa modelo ng pagdetekta, tatapos ang panahon ng teknolohikal na benepisyo ng isang grupo ng mga tool. Sa bawat pagkakatuklas ng bagong tool ng isang paraan upang iwasan, binabago muli ng platform ang kanyang estratehiya. Ito ay hindi isang proseso na magkakaroon ng isang matatag na estado. Ang epektibong panahon ng HTML rendering solution ay nakadepende kung ang pagtuturo ng modelo ng pagkilala sa tunog at imahe ng Xiaohongshu ay magpapatuloy sa pagkonsentrado sa "mga pixel feature ng diffusion model" o magpapalawig sa "lahat ng non-native photographic pixels".

Para sa mga content creator, mahalaga na makapaghiwalay ang “AI-assisted” at “AI-replaced.” Malinaw ang pananaw ng platform: pinapayagan ang AI bilang pagpapalakas ng kreatibidad, ngunit ipinagbabawal ang paggamit ng AI para sa paggawa ng maraming mababang kalidad na nilalaman na palitan ang tao. Sa Skill ni Tsang Shifu, ang AI ay gumagawa ng mga desisyon sa layout, hindi sa paggawa ng nilalaman; ang mga larawan ay totoong natanggap, at ang mga layout ay may pre-set na istraktura mula sa mga human designer. Ito ay eksaktong nasa loob ng “AI-assisted” na zona. Ang mga post na may lahat ng teksto at imahe na gawa ng generative models ang direktang layunin ng platform na pigilan.

Hindi pa malinaw kung magiging operasyonal na pamantayan ng platform ang pagkakahiwalay na ito. Ngunit ang mga developer ng tool ay nagsisagawa na ng teknikal na pagpili bilang tugon sa definisyon na ito.