Xiaohongshu AI Skill contorna regras de rotulagem de IA usando renderização HTML

Em fevereiro de 2026, o Xiaohongshu anunciou que conteúdos sintéticos gerados por IA devem ser identificados ativamente; conteúdos não identificados serão restritos na distribuição. Três meses e meio depois, um projeto de código aberto chamado guizang-social-card-skill apareceu no GitHub, especializado em gerar imagens em formato 3:4 para o Xiaohongshu e capas para contas públicas. Sua abordagem técnica apresenta uma escolha incomum: não utiliza nenhum modelo de IA para gerar pixels de imagem; toda a cena é renderizada por HTML+CSS, com imagens obtidas por busca em bancos de fotos reais como Unsplash. O resultado não é uma “imagem gerada por IA”, mas sim uma captura de tela de uma página web rasterizada pelo mecanismo do navegador.

Esta escolha corresponde a uma mudança específica. Desde 2026, Xiaohongshu implementou um modelo de reconhecimento de áudio e imagem, que avalia conteúdo AIGC analisando padrões de distribuição de pixels de imagens e características de áudio. No mesmo período, mais de 800.000 contas gerenciadas por IA e cerca de 150.000 postagens falsificadas por IA foram removidas. Para criadores de conteúdo que precisam produzir imagens e textos com alta frequência, a probabilidade de detecção e marcação de imagens geradas por Midjourney ou Canva AI continua aumentando. O Skill do Mestre Cang escolheu outro caminho: deixar que a IA tome decisões de layout, entregando os pixels finais ao mecanismo de renderização e à biblioteca de fotos reais.

Este é um contorno técnico intencional. Mas até onde essa solução pode ir depende da flexibilidade com que a plataforma define o termo “conteúdo sintético gerado por IA”.

28 esqueletos de layout, a IA é responsável pela lógica de layout, não pelo desenho

O mestre Zang, cujo nome real é Guizang, já lançou anteriormente o guizang-ppt-skill, outra ferramenta de IA voltada para cenários de layout de texto e imagens. O social-card-skill desta vez tem um foco mais específico: direcionado a imagens em formato 3:4 do Xiaohongshu, capas em 1:1 e 21:9 do WeChat Official Account, com resoluções de saída de 1080×1440, 1080×1080 e 2100×900, respectivamente.

Na arquitetura técnica, este Skill possui 28 esqueletos de layout integrados, divididos em dois sistemas visuais: Editorial (estilo de revista, 16 layouts) e Swiss (estilo suíço internacionalista, 12 layouts), acompanhados por 10 conjuntos pré-definidos de paletas de cores. Após o usuário inserir o destino, itinerário ou tema de notas, a IA seleciona o esqueleto de layout apropriado, determina a posição do texto e processa os parâmetros de anotação do mapa, depois codificando todas as decisões de design em HTML+CSS. O mecanismo de renderização Playwright assume as etapas subsequentes, gerando capturas de tela página por página no formato PNG.

Um componente especialmente útil para blogueiros de viagem é o módulo de mapa. Ele carrega tiles reais do OpenStreetMap usando o MapLibre, suportando múltiplos marcadores e linhas de conexão. O usuário apenas fornece o nome da cidade ou atração, e a IA gera automaticamente um mapa de fundo com anotações e o incorpora ao layout. O fluxo de trabalho de fontes de imagem associado tem uma prioridade clara: fotos reais fornecidas pelo usuário têm prioridade máxima; na ausência de imagens do usuário, as imagens são buscadas automaticamente na seguinte ordem: Unsplash → Pexels → Flickr CC → Wallhaven.

O processo inteiro é executado em sete etapas: Intake → Style & Theme → Layout Selection → Asset Prep → Compose & Render → Deliver & Review → Iterate. Cada etapa é registrada no arquivo .poster no diretório task. Ao gerar imagens em lote, execute node render.mjs, onde o Playwright renderiza individualmente. Existe também um script de validação validate-social-deck.mjs que mede elementos DOM em um ambiente de navegador real, detectando problemas de layout como transbordamento de texto, tamanho de fonte acima do limite e colisões de elementos no footer.

O objetivo deste mecanismo é claro: ser preciso e controlável como um software de composição tipográfica, e não livre e imprevisível como um modelo de difusão. A consequência é que a liberdade criativa é restringida a 28 grades. Para criadores que dependem de estilo fotográfico pessoal, elementos à mão ou colagens irregulares, esses esqueletos de layout não oferecem aumento de eficiência, mas sim restrições de design.

Em termos de requisitos de acesso, a versão CLI exige a instalação do Playwright e do ambiente Node, além da obtenção de permissão de API para o Claude Code ou Codex. Existe também uma versão web em xiaohongshu.guizang.ai, voltada para usuários não desenvolvedores, mas ainda não há informações públicas comparando a completude das funcionalidades com a versão CLI. Os poucos tweets publicados pelo desenvolvedor no X e os updates contínuos no README indicam que este projeto ainda está em rápida iteração.

Os pixels não vêm de modelos gerativos, mas conformidade não equivale a segurança a longo prazo

A lógica de detecção de conteúdo de IA do Xiaohongshu, com base em informações públicas e dados técnicos, depende principalmente de modelos de reconhecimento de áudio e imagem. Esse modelo analisa os padrões de distribuição de pixels nas imagens para determinar se o conteúdo foi gerado por um modelo de IA. Modelos de difusão e GAN deixam características estatísticas específicas no nível dos pixels ao gerar imagens, que diferem dos padrões naturais de luz e sombra, distorção da lente e padrões de ruído capturados por sensores de câmera. O objetivo do treinamento do modelo de reconhecimento de áudio e imagem é justamente capturar essas inconsistências estatísticas.

A lógica de contorno do Skill do Mestre Cang baseia-se em uma distinção fundamental: os pixels das imagens geradas não provêm de nenhum modelo de geração. O mecanismo de renderização HTML rasteriza estilos CSS, produzindo distribuições de pixels cujas características são mais próximas de capturas de tela da interface do navegador ou da saída de softwares de layout de desktop. As partes fotográficas vêm de imagens reais de bancos de imagens como Unsplash, fotografadas com câmeras e processadas manualmente, sem vestígios de modelos de difusão.

Mas essa distinção só é válida se a definição da plataforma para “conteúdo sintético gerado por IA” coincidir exatamente com a linha de “pixels gerados por modelos de IA”. O anúncio oficial do Xiaohongshu usa a expressão “conteúdo sintético gerado por IA”, cujo escopo original não é restrito. Caso a plataforma amplie a definição para incluir “saídas de renderização de programas com design assistido por IA” ou incorpore características de renderização de navegador de imagens rasterizadas em HTML ao conjunto de treinamento do modelo de reconhecimento, o benefício técnico atual dessa abordagem desaparecerá.

A plataforma possui uma base técnica e motivações de governança definidas de forma expandida. O modelo de reconhecimento de áudio e imagem está em constante iteração. Se amostras comparativas de imagens renderizadas por HTML e imagens geradas por IA forem incluídas nos dados de treinamento, o modelo pode aprender a distinguir entre “características de suavização subpixel da renderização de fontes do navegador” e “bloco de pixels irregulares gerados por GAN durante a geração de texto”. Atualmente, não há informações públicas indicando que Xiaohongshu tenha iniciado esse tipo de treinamento, mas, considerando os limites das capacidades do modelo, essa expansão é tecnicamente viável.

O fato mais importante a ser observado são os elementos de conformidade relacionados ao hospedagem de mini-programas. Atualmente, não foi encontrado nenhum documento oficial indicando que esse Skill registrou o número de registro do modelo ou concluiu o registro de conformidade relevante. Se a plataforma adicionar exigências de rastreamento da cadeia de ferramentas de geração de imagens no processo de revisão de conteúdo, a ausência de informações de registro pode se tornar um novo ponto de bloqueio.

API template engine, platform customization tools, and HTML rendering are branching into three separate paths

Ao observar as ferramentas disponíveis no mercado para gerar imagens para mídias sociais, percebe-se que elas estão se dividindo em três linhas tecnológicas distintas. Cada uma enfrenta uma estrutura de risco de revisão diferente.

Modelos de IA geram imagens diretamente. Este caminho representa a funcionalidade Magic Design lançada pela Canva AI em abril de 2026, que gera diretamente layouts de design a partir de prompts de texto, incluindo elementos visuais de IA. Imagens geradas por modelos como Midjourney e DALL·E também se enquadram nessa categoria. A questão é clara: essas imagens são o principal alvo de detecção dos modelos de reconhecimento áudio-visual. A abordagem da Canva é incentivar a rotulagem transparente, em vez de evitar a detecção. No Xiaohongshu, não há dados públicos que confirmem se postagens geradas por IA recebem menor peso de recomendação após rotulagem, mas a política da plataforma de "restringir a distribuição de conteúdo de IA não identificado" já está estabelecida. A cada atualização da versão do modelo de difusão, as características estatísticas de pixels podem mudar, e os modelos de detecção correspondentes também são atualizados simultaneamente — os criadores enfrentam um alvo em constante movimento.

Renderização de template de API. Bannerbear é um exemplo típico dessa abordagem. Os usuários criam templates no designer, enviam dados JSON por meio da API REST para modificar variáveis de camadas, e o servidor renderiza a saída como PNG ou JPG. Seu núcleo também é “renderização programática”, e não “geração de pixels por modelo”; a saída não contém traços de modelos de difusão. A diferença em relação ao Skill do Zang Shifu é que os templates do Bannerbear dependem de design manual, sem participação da IA nas decisões de layout; já o Skill do Zang Shifu permite que o Claude leia e escreva diretamente HTML, delegando a escolha do layout à IA. O risco da solução Bannerbear está em outro nível: quando muitas contas usam o mesmo template, a mesma paleta de cores e a mesma fonte para produzir imagens e textos, mesmo que nenhuma imagem seja gerada por IA, isso pode acionar a detecção de “produção em massa programática” pela plataforma. As condições para acionar regras anti-spam não são exatamente iguais às de detecção de IA, mas para criadores que operam contas em massa, o resultado é o mesmo: restrição na distribuição.

Geração personalizada da plataforma. O Pin Generator foi projetado especificamente para o Pinterest, gerando automaticamente Pins que se alinham às preferências do algoritmo da plataforma. O núcleo desta abordagem não é evitar, mas sim adaptar-se completamente — dimensões, estilo visual e ritmo de publicação estão todos alinhados às normas da plataforma. A vantagem é o menor risco de revisão; porém, a desvantagem é clara: as capacidades da ferramenta estão vinculadas rigidamente às regras da plataforma, e quando o Pinterest altera seu algoritmo ou restringe chamadas de API de terceiros, a ferramenta simplesmente deixa de funcionar. Em comparação com a Skill do Mestre Zang, a primeira é uma ferramenta exclusiva da plataforma, enquanto a segunda é uma solução multiplataforma. Ferramentas exclusivas da plataforma são mais seguras, mas mais frágeis; soluções multiplataforma são mais flexíveis, mas mais complexas — este é um trade-off recorrente no campo das ferramentas de IA.

As estruturas de risco das três abordagens são diferentes. A geração de imagens por IA é a mais flexível, mas cada atualização responde a novos modelos de detecção. O mecanismo de template é o mais estável, mas pode ser afetado por regras anti-spam. A renderização HTML fica entre essas duas: o layout é controlado flexivelmente pela IA, enquanto os pixels são deixados para o navegador e materiais reais, contornando a detecção na camada de “pixels gerados por IA”, mas não conseguindo lidar com expansões das regras semânticas da plataforma.

O limite do sistema de layout não está no código, mas no tipo de conteúdo.

28 esqueletos de layout cobrem os dois sistemas visuais principais: estilo revista e estilo suíço. Para blogueiros de viagem que precisam exibir rotas de mapas, linhas do tempo e itinerários de vários dias, este sistema oferece alta compatibilidade. A marcação de mapas e as conexões de itinerário são as informações centrais dessas anotações, e os esqueletos de layout estruturam essas informações, mantendo ao mesmo tempo um senso profissional de tipografia.

Mas o ecossistema de conteúdo do Xiaohongshu é muito mais rico do que apenas guias de viagem. Postagens de moda dependem do estilo fotográfico pessoal e da paleta de cores, avaliações de maquiagem exigem fotos macro em alta resolução e imagens de comparação de produtos, e conteúdos de estilo de vida utilizam amplamente colagens de múltiplas imagens e anotações manuscritas. Nesse contexto, o “layout” desses tipos de conteúdo não é uma apresentação estruturada de informações, mas uma expressão da estética e da emoção pessoais. Os 28 esqueletos de layout nesse cenário não são ferramentas, mas restrições.

As limitações técnicas são igualmente reais. Atualmente, são suportados três tamanhos: 1080×1440 (Xiaohongshu 3:4), 2100×900 (WeChat Official Account 21:9) e 1080×1080 (WeChat Official Account 1:1). Capas verticais 9:16 do Douyin e capas horizontais 16:9 do Bilibili não são suportadas. A biblioteca de imagens depende do Unsplash e do Pexels, cujos recursos tendem a ser fotografias de alta qualidade, adequadas para necessidades de ilustração de viagens, paisagens e arquitetura urbana. No entanto, recursos frequentes para conteúdos verticais como close-ups de comida, poses de cosméticos e peças de roupa têm cobertura limitada nesses acervos. A estratégia de priorizar imagens dos usuários pode aliviar parcialmente esse problema, desde que os criadores tenham acumulado suficientes materiais fotográficos próprios.

O mecanismo de validação é uma arma de dois gumes. O validate-social-deck.mjs pode interceptar erros de layout antes da geração da imagem, garantindo que 100 renderizações em lote ocorram sem erros. Isso é uma garantia de eficiência em cenários operacionais que exigem a publicação diária de dezenas de imagens. Mas isso também significa que qualquer design que não siga as regras de layout pré-definidas será rejeitado pelo script. Criadores que desejam adicionar um elemento de texto inclinado ou margens personalizadas ao layout padrão não podem ajustá-los facilmente, como no Canva; precisam editar diretamente o código-fonte HTML e CSS.

O limiar de implantação local é outro ponto de diferenciação. Criadores que conseguem executar scripts do Playwright e Node podem aprofundar-se na estrutura de layout e nos scripts de renderização para personalização. No entanto, para a maioria dos criadores do Xiaohongshu, o acesso é limitado a um subconjunto de funcionalidades da interface web. A diferença de valor real que esses dois tipos de usuários obtêm desse Skill é grande. O grupo principal de usuários do projeto open source são criadores e desenvolvedores dispostos a experimentar e com formação técnica, e não as necessidades de “gerar imagem com um clique” dos produtores de conteúdo comuns.

Não há uma resposta única, mas a divergência nas linhas tecnológicas já revela o problema

Um blogueiro de viagens do Xiaohongshu enfrenta três opções: usar o Midjourney para gerar imagens no estilo ilustração, correndo o risco de ser marcado e penalizado; configurar o Bannerbear com modelos para inserir dados em massa diariamente, correndo o risco de homogeneização dos modelos e detecção como spam; ou usar a Skill do Mestre Cang, permitindo que a IA escolha o layout e gere a imagem por meio de HTML, correndo o risco de a plataforma expandir a definição de “conteúdo sintético”. Não há uma escolha segura, apenas combinações diferentes de estruturas de risco.

Este cenário em si transmite uma mensagem: a iteração de confronto entre a plataforma e as ferramentas de IA já começou. A cada atualização da plataforma no modelo de detecção, o período de vantagem tecnológica de um conjunto de ferramentas termina. A cada vez que uma nova ferramenta encontra uma maneira de contornar, a plataforma ajusta sua estratégia. Este não é um processo que convergirá para um estado estável. A validade da solução de renderização HTML depende se o modelo de reconhecimento de áudio e vídeo do Xiaohongshu continuará focado em "características de pixels de modelos de difusão" ou se expandirá para "todos os pixels não-fotográficos nativos".

Para criadores de conteúdo, torna-se prático distinguir entre “IA auxiliar” e “IA substituta”. A postura da plataforma já está clara: incentivar a IA como um amplificador criativo, mas rejeitar o uso da IA para substituir humanos na produção em massa de baixa qualidade. No Skill do Zang Shifu, a IA realiza decisões de layout, não geração de conteúdo; as fotos são reais e o esqueleto do design é pré-definido por designers humanos. Isso se encaixa perfeitamente na faixa de “IA auxiliar”. Aquilo que a plataforma busca explicitamente combater são os conteúdos textuais e visuais gerados inteiramente por modelos de geração.

Ainda não está claro se essa distinção se tornará um padrão operacional de revisão da plataforma. Mas os desenvolvedores de ferramentas já estão respondendo a essa definição por meio de escolhas técnicas.