Навык ИИ Xiaohongshu обходит правила маркировки ИИ с помощью HTML-рендеринга

В феврале 2026 года Xiao Hong Shu опубликовала公告, требующую, чтобы все синтетические контенты, созданные с помощью ИИ, обязательно маркировались; контент без маркировки будет ограничен в распространении. Более чем через три месяца на GitHub появился открытый проект под названием guizang-social-card-skill, специализирующийся на создании изображений в соотношении сторон 3:4 для Xiao Hong Shu и обложек для официальных аккаунтов. Его технический подход включал необычное решение: не использовать никакие ИИ-модели для генерации пикселей изображений — вся сцена создавалась с помощью HTML+CSS, а изображения брались из реальных фотобиблиотек, таких как Unsplash. В результате получалась не «изображение, сгенерированное ИИ», а скриншот веб-страницы, растеризованный браузерным движком.

Этот выбор соответствует конкретному изменению. С 2026 года Xiaohongshu внедрила модель распознавания аудио-визуальных данных, анализируя закономерности распределения пикселей изображений и аудио-характеристики для определения контента, созданного с помощью ИИ. За этот же период было заблокировано более 800 000 аккаунтов, управляемых ИИ, и около 150 000 фальшивых записей, созданных с помощью ИИ. Для создателей контента, которым требуется частая публикация текстов с изображениями, вероятность обнаружения и маркировки изображений, сгенерированных с помощью Midjourney или Canva AI, постоянно растет. Мастер Цан выбрал другой путь: позволить ИИ принимать решения о макете, передавая окончательные пиксели рендеринговому движку и базе реальных фотографий.

Это сознательный технический обход. Однако насколько далеко сможет зайти эта схема, зависит от гибкости определения платформой термина «синтетический контент, созданный ИИ».

28 макетных каркасов, ИИ отвечает за логику компоновки, а не за рисование

Мастер Цзан по настоящему имени Гуйцзан, ранее выпустил guizang-ppt-skill — еще один инструмент ИИ, ориентированный на верстку текста и изображений. Новый инструмент social-card-skill имеет более узкую направленность: он предназначен для создания изображений в соотношении сторон 3:4 для Xiaohongshu, 1:1 и 21:9 для обложек WeChat Official Accounts, с разрешением 1080×1440, 1080×1080 и 2100×900 соответственно.

В архитектуре этого навыка встроены 28 шаблонов макетов, разделенных на две визуальные системы: Editorial (журнальный стиль, 16 макетов) и Swiss (швейцарский международный стиль, 12 макетов), а также 10 предустановленных цветовых тем. После ввода пользователем пункта назначения, маршрута или темы заметок ИИ выбирает подходящий шаблон макета, определяет расположение текста, настраивает параметры маркеров карты и преобразует все решения по дизайну в HTML+CSS. Далее движок рендеринга Playwright берет на себя последующие этапы, создавая постраничные скриншоты в формате PNG.

Одним из полезных компонентов для блогеров о путешествиях является модуль карты. Он использует MapLibre для загрузки реальных тайлов OpenStreetMap и поддерживает несколько маркеров местоположений и линий между ними. Пользователю достаточно указать название города или достопримечательности — AI автоматически генерирует карту с аннотациями и встраивает её в макет. Соответствующий рабочий процесс поиска изображений имеет четкий приоритет: фотографии, предоставленные пользователем, имеют наивысший приоритет; при отсутствии пользовательских изображений автоматический поиск осуществляется в следующем порядке: Unsplash → Pexels → Flickr CC → Wallhaven.

Процесс состоит из семи этапов: Intake (прием входных данных) → Style & Theme (выбор стиля и темы) → Layout Selection (выбор макета) → Asset Prep (подготовка ресурсов) → Compose & Render (компоновка и рендеринг) → Deliver & Review (доставка и проверка) → Iterate (итерации). Каждый этап фиксируется в файле .poster в каталоге task. При пакетной генерации изображений запускается node render.mjs, при этом Playwright выполняет рендеринг по одному. Также существует скрипт проверки validate-social-deck.mjs, который в реальной среде браузера измеряет DOM-элементы и обнаруживает проблемы с версткой, такие как переполнение текста, превышение максимального размера шрифта или столкновение элементов footer.

Цель этой системы ясна: она должна быть точно управляемой, как типографское программное обеспечение, а не свободной и непредсказуемой, как модель диффузии. Цена этого — творческая свобода ограничена 28 ячейками. Для создателей, зависящих от персонального стиля фотографии, ручных элементов или нерегулярных коллажей, эти шаблоны не повышают эффективность, а накладывают ограничения на дизайн.

Что касается порога входа, версия CLI требует установки среды Playwright и Node, а также получения API-доступа к Claude Code или Codex. Существует также веб-версия xiaohongshu.guizang.ai, предназначенная для не-разработчиков, однако публичной информации о сравнении функциональности с версией CLI пока нет. Несколько постов на платформе X и постоянно обновляемый README разработчика указывают на то, что проект находится в стадии активной разработки.

Пиксели не происходят из генеративных моделей, но соответствие требованиям не означает долгосрочной безопасности

На основе открытой информации и технических данных анализ логики обнаружения AI-контента на Xiaohongshu в основном опирается на аудиовизуальные модели распознавания. Эта модель определяет, является ли контент сгенерированным ИИ, анализируя закономерности распределения пикселей изображения. Модели диффузии и GAN при генерации изображений оставляют специфические статистические особенности на уровне пикселей, которые отличаются от естественных светотеневых эффектов, искажений объектива и шаблонов шума, зафиксированных сенсором камеры. Цель обучения аудиовизуальной модели распознавания — выявить эти несоответствия в статистических закономерностях.

Логика обхода Skill Шиана основана на ключевом различии: пиксели изображений, которые она генерирует, не происходят ни из какой генеративной модели. Рендеринг HTML-движком CSS-стилей создает распределение пикселей, которое более близко к скриншотам интерфейса браузера или выводу настольных программ верстки. Фотографические элементы взяты из фотобиблиотек, таких как Unsplash, и представляют собой реальные снимки, сделанные камерами и обработанные вручную, без следов моделей диффузии.

Но это различие имеет смысл только при условии, что платформа определяет «сгенерированный ИИ составной контент» именно на линии «пикселей, сгенерированных ИИ-моделью». Официальное объявление Xiaohongshu использует формулировку «сгенерированный ИИ составной контент», и исходный охват этого термина не является узким. Как только платформа расширит определение до «результатов программной визуализации с использованием ИИ-помощника» или включит в обучающий набор модели признаки рендеринга браузером HTML-растровых изображений, текущие технологические преимущества этой системы исчезнут.

Платформа имеет техническую основу и мотивацию для расширения определений. Модель распознавания звука и изображения постоянно совершенствуется. Если в обучающие данные включить большое количество сравнительных образцов HTML-рендеринга изображений и изображений, сгенерированных ИИ, модель сможет научиться различать «субпиксельные особенности сглаживания, создаваемые шрифтами браузера», и «неправильные пиксельные блоки, возникающие при генерации текста GAN». На данный момент нет открытой информации о том, что Xiaohongshu начала обучение в этом направлении, однако с точки зрения границ возможностей модели такое расширение технически обосновано.

Более важным фактом являются соответствующие требования к соблюдению норм при хостинге мини-программ. На данный момент не найдено никаких официальных документов, подтверждающих, что этот навык интегрирован с номером регистрации модели или прошел соответствующую регистрацию на соответствие. Если платформа добавит требование отслеживания цепочки инструментов для генерации изображений в процесс проверки контента, отсутствие информации о регистрации может стать новой точкой блокировки.

Шаблонный движок API, инструменты настройки платформы и HTML-рендеринг разделяются на три ветви.

Наблюдая за инструментами на рынке, генерирующими изображения для социальных сетей, можно увидеть, что они диверсифицируются в три различных технологических направления. Каждое из них сталкивается с различной структурой рисков модерации.

Искусственный интеллект напрямую генерирует изображения. Этот путь представляет собой функцию Magic Design, выпущенную Canva AI в апреле 2026 года, которая напрямую генерирует дизайн-макеты с AI-визуальными элементами на основе текстовых подсказок. Изображения, созданные моделями, такими как Midjourney и DALL·E, также относятся к этой категории. Вопрос ясен: эти изображения являются основной целью обнаружения моделями аудиовизуального распознавания. Подход Canva заключается в поощрении прозрачного маркирования, а не в попытках обойти обнаружение. На Xiaohongshu нет публичных данных, подтверждающих, снижается ли вес рекомендаций для постов с изображениями, сгенерированными ИИ, после их маркировки, но политика платформы по ограничению распространения «неотмеченного ИИ-контента» уже является установленной. При каждом обновлении версии диффузионной модели статистические признаки пикселей могут изменяться, и соответствующие модели обнаружения также постоянно совершенствуются — создатели сталкиваются с постоянно движущейся мишенью.

Рендеринг шаблонов API. Bannerbear — типичный пример этого подхода. Пользователи создают шаблоны в конструкторе, передают JSON-данные через REST API для изменения переменных слоев, а сервер выполняет рендеринг и выводит PNG или JPG. Его ядро также основано на «программном рендеринге», а не на «генерации пикселей моделью»; вывод не содержит следов моделей диффузии. Отличие от навыка Цзан Ши Фу заключается в том, что шаблоны Bannerbear зависят от ручного дизайна, а ИИ не участвует в принятии решений о макете; навык Цзан Ши Фу позволяет Claude напрямую читать и записывать HTML, передавая выбор макета ИИ. Риск решения Bannerbear проявляется в другом измерении: когда множество аккаунтов используют одинаковые шаблоны, цветовую схему и шрифты для создания изображений, даже если каждое изображение не является сгенерированным ИИ, платформа может распознать это как «массовое программное производство». Условия срабатывания правил против спама не идентичны условиям обнаружения ИИ, но для создателей, ведущих массовые аккаунты, результат одинаков — ограничение распространения.

Пользовательская генерация на платформе. Pin Generator разработан специально для Pinterest и автоматически создает изображения Pin, соответствующие предпочтениям алгоритма платформы. Основная идея этого подхода — не обход ограничений, а полная адаптация: размеры, визуальный стиль и частота публикаций полностью соответствуют требованиям платформы. Преимущество — минимальный риск блокировки, но недостаток тоже очевиден: возможности инструмента жестко привязаны к правилам платформы, и при изменении алгоритма Pinterest или ограничении стороннего API инструмент сразу перестает работать. В сравнении с Skill от Zang Shifu, первый — это инструмент, привязанный к конкретной платформе, а второй — универсальное решение для нескольких платформ. Инструменты, привязанные к платформе, безопаснее, но более уязвимы; универсальные решения гибче, но сложнее — это классический компромисс, который постоянно возникает в области инструментов на базе ИИ.

Структура рисков у трех подходов различна. Генерация изображений с помощью ИИ наиболее свободна, но каждое обновление требует адаптации под новые модели обнаружения. Шаблонные движки наиболее стабильны, но могут быть ошибочно затронуты правилами против спама. HTML-рендеринг находится между этими двумя подходами: макет гибко контролируется ИИ, пиксели передаются браузеру и реальным фотографиям, что позволяет избежать обнаружения на уровне «сгенерированных ИИ пикселей», но не защищает от расширения правил платформы на семантическом уровне.

Лимиты системы макета находятся не в коде, а в типах контента

28 шаблонов макетов охватывают две основные визуальные системы: журнальный и швейцарский стили. Эта система идеально подходит для блогеров-путешественников, которым нужно отображать карты маршрутов, временные шкалы и многодневные программы. Аннотации карт и линии маршрутов являются ключевой информацией в этих заметках, а шаблоны макетов структурируют эту информацию, сохраняя при этом профессиональный вид компоновки.

Но экосистема контента на Xiaohongshu гораздо богаче, чем просто путеводители по путешествиям. Записи о стиле одежды зависят от индивидуального стиля фотографии и цветовой гаммы, обзоры косметики требуют высококачественных макрофотографий и изображений для сравнения продуктов, а контент о стиле жизни активно использует коллажи из нескольких изображений и рукописные пометки. «Верстка» этих типов контента — это не структурированное представление информации, а выражение личного вкуса и эмоций. 28 каркасов макетов в таких сценариях — не инструмент, а ограничение.

Технические ограничения также реальны. В настоящее время поддерживаются три размера: 1080×1440 (Xiaohongshu 3:4), 2100×900 (WeChat Official Account 21:9) и 1080×1080 (WeChat Official Account 1:1). Вертикальные обложки для Douyin 9:16 и горизонтальные обложки для Bilibili 16:9 не поддерживаются. Галерея изображений зависит от Unsplash и Pexels, материалы которых ориентированы на качественную фотографию и подходят для иллюстраций путешествий, пейзажей и городской архитектуры. Однако частые материалы для нишевого контента, такие как крупные планы еды, постановочные фото косметики или отдельные предметы одежды, в этих галереях представлены ограниченно. Стратегия приоритета пользовательских изображений может частично смягчить эту проблему, при условии, что создатели имеют достаточный опыт и накопленные собственные фотографии.

Механизм проверки — двойной меч. Файл validate-social-deck.mjs может блокировать ошибки верстки до генерации изображения, обеспечивая отсутствие ошибок при пакетной обработке 100 раз. Это гарантия эффективности в сценариях, где требуется ежедневное создание десятков изображений. Но это также означает, что любой дизайн, не соответствующий предустановленным правилам макета, будет отклонен скриптом. Создателям, желающим добавить наклонный текстовый элемент или настроить пользовательские поля в стандартном макете, нельзя просто перетаскивать элементы, как в Canva — необходимо напрямую редактировать исходный код HTML и CSS.

Порог локального развертывания — это еще одна точка разделения. Создатели, которые могут запускать скрипты Playwright и Node, могут углубиться в настройку структуры макета и скриптов рендеринга. Однако для большинства блогеров на Xiaohongshu доступны лишь подмножество функций веб-интерфейса. Реальная ценность, которую эти две группы пользователей получают от этого навыка, значительно различается. Основная аудитория открытого проекта — это создатели и разработчики, готовые экспериментировать и обладающие технической подготовкой, а не обычные производители контента, ищущие «однокликовое создание изображений».

Нет универсального ответа, но дивергенция технологических направлений сама по себе говорит о многом

Миниатюрный блогер о путешествиях на Xiaohongshu стал перед выбором из трех вариантов: использовать Midjourney для генерации иллюстративных схем маршрутов, рискуя быть отмеченным и пониженным в ранжировании; настроить шаблон на Bannerbear для ежедневной массовой подстановки данных, рискуя столкнуться с риском анти-спам-фильтров из-за однотипности шаблонов; или использовать навык Цзань Ши Фу, чтобы AI выбрал макет, а затем отрендерил изображение с помощью HTML, рискуя столкнуться с расширением платформой определения «синтетического контента». Нет безопасного варианта — только различные комбинации структур рисков.

Сама эта ситуация передает сообщение: противостояние и итерации между платформой и инструментами ИИ уже начались. Каждое обновление платформы для обнаружения моделей завершает технологический период выгоды для определенного набора инструментов. Каждый раз, когда новые инструменты находят обходные пути, платформа корректирует свою стратегию. Это не процесс, который стремится к стабильному состоянию. Срок действия решения для HTML-рендеринга зависит от того, будет ли модель распознавания звука и изображения Xiaohongshu продолжать фокусироваться на «пиксельных характеристиках моделей диффузии» или расширится до «всех пикселей, не являющихся оригинальными фотографиями».

Для контент-создателей важно различать «AI-помощник» и «AI-заменитель». Позиция платформы ясна: поощряется использование AI как усилителя креативности, но запрещается заменять людей с помощью AI для массового производства низкокачественного контента. В навыке Цзан Ши Фу AI принимает решения по верстке, а не генерирует контент: фотографии сделаны в реальности, а макеты — это предустановленные структуры, созданные человеческими дизайнерами. Это идеально попадает в категорию «AI-помощник». Те, кто генерирует весь текст и изображения с помощью моделей генерации, — именно те, кого платформа намерена пресекать.

Пока неясно, станет ли такое разделение операционным стандартом для проверки платформы. Однако разработчики инструментов уже реагируют на это определение с помощью технологий.