Xiaohongshu AI Skill обходить правила маркування штучного інтелекту за допомогою HTML-рендерингу

У лютому 2026 року Xiao Hong Shu опублікувала оголошення, в якому вимагала, щоби AI-згенеровані синтетичні матеріали мали активне позначення, а невідмічені матеріали будуть обмежені у розповсюдженні. Три з половиною місяці по тому на GitHub з’явився відкритий проект під назвою guizang-social-card-skill, який спеціалізується на створенні зображень у співвідношенні 3:4 для Xiao Hong Shu та обкладинок для публікацій у WeChat. Його технічний підхід мав незвичайний вибір: не використовувати жодну AI-модель для генерації пікселів зображення — вся сцена створюється за допомогою HTML+CSS, а зображення отримуються шляхом пошуку у реальних фотобібліотеках, таких як Unsplash. На виході отримується не «зображення, згенероване AI», а знімок веб-сторінки, растеризований браузерним движком.

Цей вибір відповідає конкретній зміні. З 2026 року Xiaohongshu запустила модель розпізнавання звуку та зображення, яка визначає AIGC-контент шляхом аналізу закономірностей розподілу пікселів зображень та аудіо-характеристик. За цей період було припинено більше 800 000 AI-акаунтів та近 150 000 AI-підроблених записів. Для авторів контенту, які регулярно створюють текстово-графічний контент, ймовірність виявлення та позначення зображень, згенерованих за допомогою Midjourney або Canva AI, постійно зростає. Skill Чан Шицзюнь обрав інший шлях: дозволити AI приймати рішення щодо макету, залишивши остаточні пікселі на рендеринговому двигуні та бібліотеці реальних фотографій.

Це свідомий технічний обхід. Але наскільки далеко зможе зайти ця схема, залежить від гнучкості визначення терміну «AI-згенерований синтетичний контент» на платформі.

28 шаблонів макетів, AI відповідає за логіку компонування, а не за малювання

Майстер Цзан народився як Гуйцзан, раніше випустив guizang-ppt-skill — інший інструмент AI для розміщення тексту та зображень. Цей новий social-card-skill має більш вузьку спрямованість: для зображень у співвідношенні 3:4 для XiaoHongShu, 1:1 та 21:9 для обкладинок WeChat Official Account, з роздільною здатністю 1080×1440, 1080×1080 та 2100×900 відповідно.

З точки зору архітектури, цей навичка містить 28 шаблонів макетів, розділених на дві візуальні системи: Editorial (журнальний стиль, 16 макетів) і Swiss (швейцарський міжнародний стиль, 12 макетів), а також 10 попередньо встановлених тем кольорів. Після введення користувачем пункту призначення, маршруту або теми нотаток, AI вибирає відповідний шаблон макету, визначає розташування тексту, обробляє параметри позначення на карті, а потім записує всі рішення щодо дизайну у форматі HTML+CSS. Далі рендеринговий двигун Playwright бере на себе наступні етапи, створюючи PNG-зображення сторінок по одній.

Компонент, який особливо корисний для блогерів про подорожі — це модуль карти. Він завантажує справжні тайли OpenStreetMap за допомогою MapLibre, підтримує кілька позначок місць та ліній між ними. Користувачам достатньо ввести назву міста чи достопримічності, а AI автоматично створює підкладку з позначками та вбудовує її у макет. Для робочого процесу джерел зображень встановлено чіткий пріоритет: найвищий пріоритет мають фотографії, надані користувачем; якщо таких немає, автоматично шукаються зображення за порядком: Unsplash → Pexels → Flickr CC → Wallhaven.

Процес виконується у сім етапів: Intake (прийом вхідних даних) → Style & Theme (визначення стилю та теми) → Layout Selection (вибір макету) → Asset Prep (підготовка матеріалів) → Compose & Render (компонування та рендеринг) → Deliver & Review (вивід та перевірка) → Iterate (ітерації). Кожен етап фіксується у файлі .poster у каталозі task. Для пакетного створення зображень запускайте node render.mjs, де Playwright рендерить кожне зображення по черзі. Також існує скрипт перевірки validate-social-deck.mjs, який у реальному середовищі браузера вимірює DOM-елементи, виявляючи такі проблеми з макетом, як переповнення тексту, розмір шрифту, що перевищує ліміт, або зіткнення елементів footer.

Мета цієї механізми чітко визначена: точний і контролюваний, як програмне забезпечення для верстки, а не вільний і непередбачуваний, як дифузійна модель. Ціною є обмеження креативної свободи в межах 28 комірок. Для творців, які залежать від особистого фотографічного стилю, елементів від руки або нерегулярних колажів, ці каркаси макетів не забезпечують підвищення ефективності, а накладають обмеження на дизайн.

Щодо вимог до використання, версія CLI вимагає встановлення Playwright та середовища Node, а також отримання доступу до API Claude Code або Codex. Також існує веб-версія xiaohongshu.guizang.ai, призначена для користувачів, що не є розробниками, але наразі немає публічної порівняльної інформації щодо повноти функцій порівняно з версією CLI. Кілька твітів на платформі X та постійно оновлюваний файл README розробника свідчать про те, що проект перебуває на етапі швидкого розвитку.

Пікселі не походять із генеративних моделей, але відповідність не означає довгострокової безпеки

Логіка виявлення AI-контенту на Xiaohongshu, за аналізом відкритої інформації та технічних даних, заснована на моделях аналізу звуку та зображення. Ця модель визначає, чи є контент згенерований AI, аналізуючи закономірності розподілу пікселів на зображеннях. Моделі дифузії та GAN залишають певні статистичні ознаки на рівні пікселів під час генерації зображень, які відрізняються від природних світлових ефектів, іскривлень об’єктиву та шумових моделей, зафіксованих камерними сенсорами. Мета навчання моделі аналізу звуку та зображення — виявити цю непослідовність у статистичних закономірностях.

Логіка уникнення Skill від Майстра Цзан побудована на ключовому розрізненні: пікселі зображень, які вона генерує, не походять з жодної генеративної моделі. Рендеринг HTML-движка для CSS-стилів створює розподіл пікселів, який більш схожий на знімки інтерфейсу браузера або вивід настільних програм для верстки. Фотографічні елементи походять з реальних фотографій з бібліотек, таких як Unsplash — це зображення, зроблені камерою та оброблені вручну, без слів моделей дифузії.

Але це розмежування діє лише за умови, що платформа визначає «AI-згенерований синтетичний контент» саме на лінії «пікселі, згенеровані AI-моделлю». Офіційне повідомлення XiaoHongShu використовує формулювання «AI-згенерований синтетичний контент», і початковий діапазон його застосування не є вузьким. Якщо платформа розширила б визначення до «програмних рендерів із AI-підтримкою» або включила б у навчальний набір моделі виявлення ознак рендерингу браузером HTML-растрових зображень, цей підхід втратить свої поточні технологічні переваги.

Платформа має технічну основу та мотивацію для розширення визначень. Модель виявлення звуку та зображення постійно ітерується. Якщо в навчальні дані включити велику кількість порівняльних зразків HTML-рендерингу зображень та зображень, згенерованих ШІ, модель зможе навчитися розрізняти «піксельні характеристики субпіксельного згладжування, створені браузерним шрифтом» та «неправильні піксельні блоки, створені GAN під час генерації тексту». На даний момент немає публічної інформації про те, що Xiao Hong Shu розпочала навчання в цьому напрямку, але з точки зору меж можливостей моделі таке розширення технічно обґрунтоване.

Ще більш важливим є факт відповідності вимогам, пов’язаним із хостингом міні-програм. На даний момент немає жодних офіційних документів, які б підтверджували, що цей навичка зареєструвала номер реєстрації моделі або пройшла відповідну процедуру відповідності. Якщо платформа додасть в процес перевірки контенту вимогу до відстеження інструментарію генерації зображень, відсутність інформації про реєстрацію може стати новим пунктом блокування.

Шаблонний двигун API, інструменти налаштування платформи та HTML-рендеринг розгалужуються на три шляхи

Спостерігаючи за інструментами на ринку, які створюють зображення для соціальних мереж, можна побачити, що вони розходяться на три різні технологічні напрямки. Кожен з них стикається зі своєю структурою ризиків перевірки.

Моделі ШІ безпосередньо генерують зображення. Цей шлях представляє функцію Magic Design, запущену Canva AI у квітні 2026 року, яка безпосередньо генерує дизайн-макети з текстовими підказками, що містять AI-візуальні елементи. Зображення, згенеровані моделями Midjourney, DALL·E тощо, також належать до цієї категорії. Проблема чітка: ці зображення є основною метою для виявлення моделями аудіо-візуального розпізнавання. Підхід Canva полягає у заохоченні прозорого позначення, а не у уникненні виявлення. На Xiaohongshu немає публічних даних, що підтверджують, чи знижується вага рекомендацій для постів із зображеннями, згенерованими ШІ, після їх позначення, але політика платформи щодо «обмеження розповсюдження невиявлених AI-контентів» вже є встановленою. Кожне оновлення версії дифузійної моделі може змінювати статистичні характеристики пікселів, і відповідні моделі виявлення також синхронно ітеруються — творці стикаються з постійно рухомою метою.

Рендеринг шаблонів API. Bannerbear — це типовий приклад цього підходу. Користувачі створюють шаблони в дизайнерах, передаючи JSON-дані через REST API для зміни змінних шарів, а сервер рендерить вихід у форматі PNG або JPG. Його ядро також є «програмним рендерингом», а не «генерацією пікселів моделлю», і вихід не містить слідів моделей дифузії. Відмінність від навички Цзан Ши Фу полягає в тому, що шаблони Bannerbear залежать від ручного дизайну, а AI не бере участь у прийнятті рішень щодо макету; навичка Цзан Ши Фу дозволяє Claude безпосередньо читати та записувати HTML, передаючи вибір макету AI. Ризик підходу Bannerbear полягає в іншому вимірі: коли велика кількість акаунтів використовує однакові шаблони, кольори та шрифти для створення зображень, навіть якщо кожне зображення не є згенерованим AI, це може спричинити виявлення платформою шаблону «програмного масового виробництва». Умови активування правил проти спаму не тотожні умовам виявлення AI, але для творців, які масово керують акаунтами, наслідком є обмеження розповсюдження.

Індивідуальна генерація для платформи. Pin Generator розроблений спеціально для Pinterest і автоматично створює Pin-зображення, що відповідають алгоритмічним перевагам платформи. Суть цього підходу — не обхід, а повна адаптація: розміри, візуальний стиль та частота публікацій повністю відповідають вимогам платформи. Перевага — мінімальний ризик перевірки, але недолік очевидний: можливості інструменту жорстко прив’язані до правил платформи, і коли Pinterest змінює алгоритм або обмежує використання сторонніх API, інструмент просто перестає працювати. У порівнянні з Skill від Zang Shifu, перший є платформо-специфічним інструментом, а другий — універсальним рішенням для крос-платформ. Платформо-специфічні рішення безпечніші, але більш хрупкі; універсальні — гнучкіші, але складніші. Це одна з постійних компромісних дихотомій у сфері AI-інструментів.

Ризики трьох шляхів різні. AI-генерація зображень найбільш вільна, але кожне оновлення відповідає новій моделі виявлення. Шаблонний двигун найстабільніший, але може бути сприйнятий як спам-правилами. HTML-рендеринг знаходиться між ними: макет гнучко керується AI, пікселі передаються браузеру та реальним матеріалам, уникнувши виявлення на рівні «AI-згенерованих пікселів», але не здатний протистояти розширенню правил платформи на семантичному рівні.

Ліміт системи макету не в коді, а в типах контенту

28 шаблонів охоплюють дві основні візуальні системи: журналівський та швейцарський стилі. Ця система ідеально підходить для подорожніх блогерів, яким потрібно показувати карти маршрутів, часові лінії та багатоденні програми. Позначення на картах та з’єднання маршрутів — це ключова інформація цих записів, а шаблони структурують цю інформацію, зберігаючи при цьому професійний вигляд макету.

Але екосистема вмісту Xiao Hong Shu багатша, ніж лише подорожні гайди. Записи про одяг залежать від особистого стилю фотографії та кольорової гами, огляди косметики вимагають чітких макрофотографій та зображень для порівняння продуктів, а контент про спосіб життя активно використовує колажі з кількох зображень та рукописні позначки. «Макети» цих типів вмісту — це не структуроване представлення інформації, а вираз особистої естетики та емоцій. 28 скелетів макетів у цьому контексті — не інструмент, а обмеження.

Технічні обмеження також є реальними. Наразі підтримуються три розміри: 1080×1440 (Xiaohongshu 3:4), 2100×900 (WeChat Official Account 21:9) і 1080×1080 (WeChat Official Account 1:1). Підтримка обкладинок у вертикальному форматі 9:16 для Douyin та горизонтальному форматі 16:9 для Bilibili не передбачена. Галерея зображень залежить від Unsplash і Pexels, матеріали на цих платформах переважно високоякісні фотографії, що добре підходять для ілюстрацій на теми подорожей, пейзажів та міської архітектури. Однак для частотних матеріалів у вертикальних нишах — таких як макрофотографії їжі, постановочні знімки косметики чи окремих елементів одягу — покриття в цих галереях обмежене. Стратегія пріоритету користувацьких зображень може частково зменшити цю проблему, за умови, що автори мають достатню кількість власних фотографій.

Механізм перевірки — це меч з двома лезами. validate-social-deck.mjs може перехопити помилки верстки до створення зображення, забезпечуючи 100-процентну відсутність помилок під час пакетного рендерингу. Це забезпечує ефективність у сценаріях, де потрібно публікувати десятки зображень щодня. Але це також означає, що будь-який дизайн, що не відповідає заданим правилам верстки, буде відхилений скриптом. Творцям, які хочуть додати нахилений текстовий елемент або власні поля до стандартної верстки, не вдасться просто перетягнути елементи, як у Canva — їм потрібно безпосередньо редагувати HTML і CSS-код.

Високий поріг для локального розгортання — це ще одна точка розшарування. Автори, які можуть запускати сценарії Playwright і Node, можуть глибше працювати зі структурою макету та сценаріями відображення. Але для більшості блогерів Xiaohongshu доступні лише підмножина функцій веб-інтерфейсу. Реальна цінність, яку ці дві групи користувачів отримують від цього навички, значно відрізняється. Основна аудиторія відкритого проекту — це автори та розробники, які готові експериментувати та мають технічний бекграунд, а не звичайних виробників контенту, які шукають «одноклікове створення зображень».

Немає універсального відповіді, але диференціація технічних шляхів сама по собі вже говорить про це

Маленький червоний блогер-подорожник стикається з трьома варіантами: використовувати Midjourney для генерації ілюстрацій у стилі подорожей, несучи ризик позначення та зниження видимості; налаштовувати шаблони в Bannerbear для щоденного масового заповнення даними, несучи ризик однотипності шаблонів та анти-спам-фільтрів; або використовувати навичку від Цзан Ши Фу, щоб AI вибирав макет, а потім відображав зображення за допомогою HTML, несучи ризик розширення платформою визначення «синтетичного контенту». Немає безпечного варіанту — лише різні комбінації структур ризиків.

Ця ситуація передає повідомлення: боротьба між платформою та інструментами ШІ вже почалася. Кожне оновлення платформи для моделі виявлення призводить до завершення технологічного етапу користування певними інструментами. Кожного разу, коли з’являється новий інструмент, який знаходить обхідний шлях, платформа змінює свою стратегію. Це не процес, який збігається до стабільного стану. Тривалість ефективності рішення HTML-рендерингу залежить від того, чи продовжить модель розпізнавання звуку та зображення Xiaohongshu фокусуватися на «піксельних характеристиках моделей розсіювання», чи розширить її на «усі ненативні фотографічні пікселі».

Для контент-мейкерів важливо розрізняти «AI-підтримку» та «AI-заміну». Платформа чітко визначила свою позицію: заохочує AI як інструмент для підсилення креативності, але засуджує використання AI для масового виробництва низькоякісного контенту замість людей. У Skill від Цзан Шицзюнь AI виконує лише рішення щодо верстки, а не створення контенту — фотографії зроблені реальним способом, а макети є попередньо заданими людськими дизайнерами. Це саме потрапляє у діапазон «AI-підтримки». Ті, хто генерує весь контент — від тексту до зображень — за допомогою моделей генерації, є цільлю для розслідування платформи.

Чи стане таке розділення оперативним стандартом перевірки платформи, наразі невідомо. Але розробники інструментів вже відповідають на це визначення за допомогою технологій.