Keterampilan AI Xiaohongshu Melewati Aturan Pelabelan AI Menggunakan Rendering HTML

Pada Februari 2026, Xiaohongshu mengumumkan bahwa konten sintetis yang dihasilkan AI harus secara aktif ditandai, dan konten yang tidak ditandai akan dibatasi penyebarannya. Tiga bulan kemudian, sebuah proyek open source bernama guizang-social-card-skill muncul di GitHub, yang secara khusus membuat konten gambar 3:4 untuk Xiaohongshu dan sampul公众号. Jalur teknisnya memiliki pilihan yang tidak biasa: tidak menggunakan model AI apa pun untuk menghasilkan piksel gambar, seluruh tampilan dibangun dengan HTML+CSS, dan gambar pendukung diambil dari pencarian di bank gambar nyata seperti Unsplash. Hasil yang dihasilkan bukanlah "gambar yang dihasilkan AI", melainkan tangkapan layar halaman web yang dirasterisasi oleh mesin browser.

Pilihan ini berkaitan dengan perubahan spesifik. Sejak 2026, Xiaohongshu telah meluncurkan model pengenalan audio-visual, yang menilai konten AIGC dengan menganalisis pola distribusi piksel gambar dan fitur audio. Pada periode yang sama, lebih dari 800.000 akun yang dikelola AI dan hampir 150.000 catatan palsu AI telah ditindaklanjuti. Bagi pencipta konten yang perlu menghasilkan gambar dan teks secara frekuensi tinggi, probabilitas deteksi dan penandaan gambar yang dihasilkan oleh Midjourney atau Canva AI terus meningkat. Skill dari Cang Shifu memilih jalan lain: membiarkan AI membuat keputusan tata letak, sementara piksel akhir diserahkan ke mesin rendering dan perpustakaan foto asli.

Ini adalah bypass teknis yang disengaja. Namun, sejauh mana solusi ini dapat berjalan, tergantung pada fleksibilitas definisi platform terhadap istilah "konten sintetis yang dihasilkan AI".

28 kerangka tata letak, AI bertanggung jawab atas logika tata letak, bukan menggambar

Nama asli Master Zang adalah Guizang, sebelumnya ia merilis guizang-ppt-skill, alat AI yang juga ditujukan untuk skenario tata letak teks dan gambar. Social-card-skill kali ini memiliki fokus yang lebih spesifik: untuk gambar dan teks 3:4 di Xiaohongshu, serta sampul 1:1 dan 21:9 di WeChat Official Account, dengan resolusi output masing-masing 1080×1440, 1080×1080, dan 2100×900.

Secara arsitektur teknis, Skill ini memiliki 28 kerangka tata letak bawaan, dibagi menjadi dua sistem visual: Editorial (gaya majalah, 16 tata letak) dan Swiss (gaya Swiss Internationalis, 12 tata letak), dilengkapi dengan 10 preset palet warna tema. Setelah pengguna memasukkan tujuan, perjalanan, atau topik catatan, AI bertanggung jawab memilih kerangka tata letak yang sesuai, menentukan posisi teks, dan memproses parameter annotasi peta, lalu menuliskan semua keputusan desain ke dalam HTML+CSS. Mesin render Playwright mengambil alih tahap selanjutnya, mengambil tangkapan layar halaman demi halaman dan menghasilkan output PNG.

Komponen yang sangat berguna untuk blogger perjalanan adalah modul peta. Modul ini memuat tile asli OpenStreetMap menggunakan MapLibre, mendukung penanda dan garis untuk beberapa lokasi. Pengguna hanya perlu memberikan nama kota atau tempat wisata, lalu AI akan secara otomatis menghasilkan peta dasar dengan annotasi dan menyematkannya ke dalam tata letak. Alur kerja sumber gambar yang terkait memiliki prioritas yang jelas: foto nyata yang disediakan pengguna memiliki prioritas tertinggi; jika tidak ada foto dari pengguna, sistem secara otomatis mencari gambar berurutan dari Unsplash → Pexels → Flickr CC → Wallhaven.

Proses seluruhnya dijalankan dalam tujuh langkah: Intake → Style & Theme → Layout Selection → Asset Prep → Compose & Render → Deliver & Review → Iterate. Setiap langkah dicatat dalam file .poster di direktori task. Saat merender gambar secara massal, jalankan node render.mjs, di mana Playwright merender satu per satu. Ada juga skrip validasi validate-social-deck.mjs yang mengukur elemen DOM dalam lingkungan browser nyata untuk mendeteksi insiden tata letak seperti tumpahnya teks, ukuran font yang melebihi batas, dan tabrakan elemen footer.

Tujuan desain mekanisme ini jelas: dikendalikan secara presisi seperti perangkat lunak tata letak cetak, bukan bebas namun tak terduga seperti model difusi. Harganya adalah kebebasan kreatif yang dibatasi dalam 28 kotak. Bagi kreator yang bergantung pada gaya fotografi pribadi, elemen gambar tangan, atau kolase tidak beraturan, kerangka tata letak ini bukan meningkatkan efisiensi, melainkan memberikan batasan desain.

Dari segi ambang penggunaan, versi CLI memerlukan pemasangan Playwright dan lingkungan Node, serta akses API Claude Code atau Codex. Ada juga akses versi web xiaohongshu.guizang.ai yang ditujukan untuk pengguna non-teknis, tetapi belum ada informasi publik yang membandingkan tingkat kelengkapan fungsinya dengan versi CLI. Beberapa tweet yang diposting oleh pengembang di platform X dan README yang terus diperbarui menunjukkan bahwa proyek ini masih dalam tahap pengembangan cepat.

Pixel tidak berasal dari model generatif, tetapi kepatuhan tidak sama dengan keamanan jangka panjang

Logika deteksi konten AI di Xiaohongshu, berdasarkan analisis informasi publik dan data teknis, secara inti bergantung pada model pengenalan audio-visual. Model ini menganalisis pola distribusi piksel gambar untuk menentukan apakah konten tersebut dihasilkan oleh model AI. Model difusi dan GAN saat menghasilkan gambar meninggalkan ciri statistik khusus pada tingkat piksel, yang berbeda dari cahaya dan bayangan alami, distorsi lensa, serta pola noise yang ditangkap oleh sensor kamera. Tujuan pelatihan model pengenalan audio-visual adalah menangkap ketidaksesuaian pola statistik ini.

Logika penghindaran Skill Shifu didasarkan pada perbedaan kunci: piksel gambar yang dihasilkannya tidak berasal dari model generatif apa pun. Mesin render HTML merasterisasi gaya CSS, menghasilkan distribusi piksel yang lebih mirip dengan tangkapan layar antarmuka browser atau output perangkat lunak tata letak desktop. Bagian foto berasal dari bahan asli yang difoto langsung dari galeri seperti Unsplash, gambar-gambar ini diambil dengan kamera dan diproses secara manual, tanpa jejak model diffusion.

Namun, perbedaan ini berlaku dengan syarat bahwa definisi platform terhadap "konten sintetis yang dihasilkan AI" tepat berada pada garis "pixel yang dihasilkan model AI". Pernyataan resmi Xiaohongshu menggunakan frasa "konten sintetis yang dihasilkan AI", yang cakupannya tidak sempit. Jika platform memperluas definisi ini ke "output render program yang dirancang dengan bantuan AI", atau memasukkan fitur render browser dari gambar rasterisasi HTML ke dalam set pelatihan model deteksi, manfaat teknis dari solusi ini akan hilang.

Platform memiliki dasar teknis dan motivasi tata kelola yang diperluas. Model pengenalan suara dan gambar sendiri terus mengalami iterasi. Jika data pelatihan mencakup sejumlah besar sampel perbandingan antara gambar yang dirender HTML dan gambar yang dihasilkan AI, model dapat belajar membedakan "fitur subpixel antialiasing dari rendering font browser" dengan "blok piksel tidak teratur saat GAN menghasilkan teks". Saat ini tidak ada informasi publik yang menunjukkan bahwa Xiaohongshu telah memulai pelatihan di arah ini, tetapi dari batas kemampuan model, ekstensi semacam ini secara teknis valid.

Fakta yang lebih perlu diperhatikan adalah elemen kepatuhan terkait hosting aplikasi mini. Saat ini tidak ada dokumen resmi yang menjelaskan bahwa Skill ini telah mengakses nomor pendaftaran model atau menyelesaikan pendaftaran kepatuhan terkait. Jika platform menambahkan persyaratan pelacakan terhadap rantai alat penghasil gambar dalam proses审核 konten, kurangnya informasi pendaftaran dapat menjadi titik blokir baru.

API template engine, platform customization tools, and HTML rendering are branching into three separate paths

Mengamati alat-alat di pasar yang menghasilkan gambar untuk media sosial, akan terlihat bahwa mereka sedang terbagi menjadi tiga jalur teknologi yang berbeda. Setiap jalur menghadapi struktur risiko pemeriksaan yang berbeda.

Model AI langsung menghasilkan gambar. Jalur ini merujuk pada fitur Magic Design yang dirilis Canva AI pada April 2026, yang secara langsung menghasilkan desain berisi elemen visual AI dari petunjuk teks. Gambar yang dihasilkan oleh model seperti Midjourney dan DALL·E juga termasuk dalam kategori ini. Masalahnya jelas: gambar-gambar ini menjadi target utama deteksi model pengenalan suara dan gambar. Cara Canva merespons adalah dengan mendorong pelabelan transparan, bukan menghindari deteksi. Di Xiaohongshu, tidak ada data publik yang dapat membuktikan apakah postingan yang dihasilkan model AI akan mengurangi bobot rekomendasi setelah dilabeli, tetapi kebijakan platform yang sudah tetap adalah membatasi distribusi konten AI yang tidak dilabeli. Setiap pembaruan versi model difusi dapat mengubah fitur statistik piksel, sehingga model deteksi yang sesuai juga terus diiterasi; para kreator menghadapi target yang terus bergerak.

Pemrosesan template API. Bannerbear adalah contoh khas untuk rute ini. Pengguna membuat template di desainer, mengirimkan data JSON melalui API REST untuk memodifikasi variabel lapisan, dan server merender output berupa PNG atau JPG. Inti sistemnya tetap "pemrosesan program" bukan "generasi piksel model", dan output tidak mengandung jejak model difusi. Perbedaan dengan Skill Zang Shifu adalah: template Bannerbear bergantung pada desain manual, AI tidak terlibat dalam keputusan tata letak; sedangkan Skill Zang Shifu memungkinkan Claude membaca dan menulis HTML langsung, menyerahkan keputusan tata letak kepada AI. Risiko solusi Bannerbear berada pada dimensi lain: ketika banyak akun menggunakan template yang sama, palet warna yang sama, dan font yang sama untuk menghasilkan gambar dan teks, meskipun setiap gambar bukan hasil AI, tetap dapat memicu deteksi "produksi massal terprogram" di sisi platform. Kondisi pemicu aturan anti-spam tidak sepenuhnya sama dengan deteksi AI, tetapi bagi kreator yang menjalankan akun massal, hasilnya tetap sama—distribusi terbatas.

Generasi khusus platform. Pin Generator dirancang khusus untuk Pinterest, secara otomatis menghasilkan gambar Pin yang sesuai dengan preferensi algoritma platform. Inti dari pendekatan ini bukanlah menghindari, melainkan sepenuhnya beradaptasi—ukuran, gaya visual, dan ritme publikasi semuanya selaras dengan standar platform. Kelebihannya adalah risiko peninjauan paling rendah, tetapi kekurangannya juga jelas: kemampuan alat terikat pada aturan platform, sehingga ketika Pinterest mengubah algoritma atau membatasi panggilan API pihak ketiga, alat ini langsung gagal berfungsi. Dibandingkan dengan Skill dari Cang Shifu, yang pertama adalah alat eksklusif platform, sementara yang kedua adalah solusi lintas-platform. Alat eksklusif platform lebih aman tetapi lebih rapuh, sementara solusi lintas-platform lebih fleksibel tetapi lebih kompleks—ini adalah trade-off yang sering muncul di bidang alat AI.

Struktur risiko ketiga jalur berbeda-beda. AI untuk menghasilkan gambar paling bebas, tetapi setiap pembaruan menanggapi model deteksi baru. Mesin template paling stabil, tetapi berisiko terkena aturan anti-spam. Render HTML berada di antara keduanya: tata letak dikendalikan fleksibel oleh AI, piksel diserahkan ke browser dan bahan asli, menghindari deteksi pada lapisan "piksel yang dihasilkan AI", tetapi tidak dapat menghadapi ekspansi aturan semantik platform.

Batas sistem tata letak tidak ada dalam kode, tetapi dalam jenis konten.

28 kerangka tata letak mencakup dua sistem visual utama: gaya majalah dan gaya Swiss. Sistem ini sangat cocok untuk blogger perjalanan yang perlu menampilkan rute peta, garis waktu, atau itinerary multi-hari. Penanda peta dan garis koneksi itinerary merupakan informasi inti dalam catatan ini, dan kerangka tata letak membantu mengstrukturkan informasi sekaligus mempertahankan kesan profesional dalam tata letak.

Namun, ekosistem konten Xiaohongshu jauh lebih kaya daripada panduan perjalanan. Catatan pakaian bergantung pada gaya fotografi pribadi dan nuansa warna, ulasan kecantikan memerlukan foto mikro resolusi tinggi dan gambar perbandingan produk, sementara konten gaya hidup banyak menggunakan kolase multi-gambar dan anotasi tulisan tangan. "Tata letak" jenis konten ini bukanlah penyajian terstruktur informasi, melainkan ekspresi estetika pribadi dan emosi. 28 kerangka tata letak dalam konteks ini bukanlah alat, melainkan pembatas.

Batasan teknis juga nyata. Saat ini mendukung tiga ukuran: 1080×1440 (Xiaohongshu 3:4), 2100×900 (WeChat Official Account 21:9), dan 1080×1080 (WeChat Official Account 1:1). Cover vertikal 9:16 untuk Douyin dan cover horizontal 16:9 untuk Bilibili tidak didukung. Galeri gambar bergantung pada Unsplash dan Pexels, yang bahan-bahannya cenderung berfokus pada fotografi berkualitas tinggi, cocok untuk kebutuhan gambar perjalanan, pemandangan, dan arsitektur kota. Namun, bahan高频 untuk konten vertikal seperti close-up makanan, penataan kosmetik, atau pakaian tunggal memiliki cakupan terbatas di galeri-galeri ini. Strategi yang mengutamakan gambar pengguna dapat sebagian mengatasi masalah ini, dengan syarat kreator telah memiliki cukup banyak bahan foto asli.

Mekanisme validasi adalah pedang bermata dua. validate-social-deck.mjs dapat menghalangi kesalahan tata letak sebelum gambar dihasilkan, menjamin tidak ada kesalahan dalam 100 render massal. Ini merupakan jaminan efisiensi dalam skenario operasional yang memerlukan pembaruan harian puluhan gambar. Namun, ini juga berarti setiap desain yang tidak sesuai dengan aturan tata letak yang telah ditentukan akan ditolak oleh skrip. Kreator yang ingin menambahkan dekorasi teks miring atau margin khusus dalam tata letak standar tidak dapat menyesuaikannya dengan sekadar menyeret seperti di Canva, melainkan harus mengedit langsung kode sumber HTML dan CSS.

Tingkat penggunaan lokal adalah titik diferensiasi lainnya. Kreator yang dapat menjalankan skrip Playwright dan Node dapat melakukan penyesuaian lebih dalam pada kerangka tata letak dan skrip rendering. Namun, sebagian besar blogger Xiaohongshu hanya dapat mengakses sebagian fitur antarmuka web. Kedua kelompok pengguna ini memperoleh nilai nyata yang sangat berbeda dari Skill ini. Kelompok pengguna inti proyek open source adalah kreator dan pengembang yang bersedia bereksperimen dan memiliki latar belakang teknis, bukan kebutuhan “satu klik untuk menghasilkan gambar” dari produsen konten biasa.

Tidak ada jawaban ajaib, tetapi diferensiasi jalur teknis sendiri sudah menunjukkan masalah

Seorang blogger perjalanan di Xiaohongshu menghadapi tiga pilihan: menggunakan Midjourney untuk menghasilkan gambar perjalanan bergaya ilustrasi, menanggung risiko ditandai dan diturunkan peringkatnya; menggunakan Bannerbear untuk mengatur template dan secara massal memasukkan data setiap hari, menanggung risiko anti-spam akibat homogenisasi template; atau menggunakan Skill dari Zang Shifu, membiarkan AI memilih tata letak lalu merender gambar menggunakan HTML, menanggung risiko ekspansi definisi "konten sintetis" oleh platform. Tidak ada pilihan aman, hanya kombinasi struktur risiko yang berbeda.

Pola ini sendiri menyampaikan pesan: perang iterasi antara platform dan alat AI telah dimulai. Setiap kali platform memperbarui model deteksi, masa manfaat teknis sejumlah alat akan berakhir. Setiap kali alat baru menemukan cara untuk melewati sistem, platform akan menyesuaikan strateginya. Ini bukan proses yang akan berkonvergensi ke keadaan stabil. Masa berlaku solusi rendering HTML bergantung pada apakah arah pelatihan model pengenalan suara dan gambar Xiaohongshu akan terus fokus pada "fitur piksel model difusi" atau diperluas ke "semua piksel non-fotografi asli".

Bagi para kreator konten, membedakan antara "AI sebagai alat bantu" dan "AI sebagai pengganti" menjadi semakin penting. Sikap platform sudah jelas: mendorong AI sebagai penguat kreativitas, namun menentang penggunaan AI untuk menggantikan manusia dalam produksi massal berkualitas rendah. Dalam Skill Cang Shifu, AI hanya membuat keputusan tata letak, bukan membuat konten; foto-fotonya diambil secara nyata, dan tata letaknya adalah kerangka yang telah ditetapkan oleh desainer manusia. Ini tepat berada di wilayah "AI sebagai alat bantu". Konten gambar dan teks yang seluruhnya dihasilkan oleh model generatif adalah target utama yang jelas ingin ditekan oleh platform.

Apakah pemisahan ini akan menjadi standar operasional untuk peninjauan platform, saat ini masih belum pasti. Namun, pengembang alat sudah merespons definisi ini dengan pilihan teknis.