Xiaohongshu AI Beceri, HTML İşleme Kullanarak AI Etiketleme Kurallarını Atlar

Şubat 2026'da Xiaohongshu, AI tarafından oluşturulan sentetik içeriklerin açıkça etiketlenmesini zorunlu kıldı ve etiketlenmemiş içeriklerin dağıtımını kısıtladı. Üç aydan fazla bir süre sonra, GitHub'da guizang-social-card-skill adlı bir açık kaynak projesi ortaya çıktı ve bu proje, Xiaohongshu'nun 3:4 oranlı görsel-metin içeriklerini ve公众号 kapaklarını özel olarak oluşturuyordu. Bu projenin teknik yaklaşımında dikkat çekici bir seçim vardı: Görüntü piksellerini oluşturmak için hiçbir AI modeli kullanmıyor, tüm görsel HTML+CSS ile render ediliyor ve görseller Unsplash gibi gerçek fotoğraf kütüphanelerinden aranıyor. Oluşturulan çıktı, "AI tarafından üretilmiş bir görüntü" değil, bir tarayıcı motorunun rastgeleleştirdiği bir web sayfasının ekran görüntüsüydü.

Bu seçim, belirli bir değişikliğe karşılık gelir. 2026 yılından beri Xiaohongshu, resim piksel dağılımını ve ses özelliklerini analiz ederek AIGC içeriğini belirlemek için ses-görüntü tanıma modelini başlatmıştır. Aynı dönemde 800.000'den fazla AI barındırma hesabı ve 150.000'den fazla AI sahte gönderi kaldırılmıştır. Sık sık görsel ve metin içeriği üretmesi gereken içerik üreticileri için, Midjourney veya Canva AI ile oluşturulan resimlerin tespit edilip işaretlenme olasılığı artmaktadır. Çang Şifu'nun Skill'i başka bir yol seçti: AI'ya düzenlemeleri karar vermesini sağladı ve nihai pikselleri render motoruna ve gerçek çekim kütüphanesine bıraktı.

Bu, bilinçli bir teknik atlamadır. Ancak bu çözümün ne kadar ilerleyebileceği, platformun "AI tarafından üretilmiş sentetik içerik" terimine ne kadar esnek bir tanım uygulayacağına bağlıdır.

28 adet düzen şablonu; AI, çizim değil, düzen mantığını yürütür.

Kâtip, gerçek adıyla Guizang, daha önce guizang-ppt-skill adlı bir AI aracını da yayınlamıştı; bu araç da görsel metin düzenlemeye yönelikti. Bu seferki social-card-skill, Xiaohongshu'nun 3:4 görsel-metin formatı, WeChat公众号'nın 1:1 ve 21:9 kapakları için daha odaklı bir pozisyon alıyor ve sırasıyla 1080×1440, 1080×1080 ve 2100×900 çözünürlüklerinde çıktı üretiyor.

Teknik yapı itibarıyla bu Skill, iki görsel sistem olan Editorial (dergi tarzı, 16 tasarım) ve Swiss (İsviçre uluslararası tarzı, 12 tasarım) olmak üzere 28 tasarım iskeleti ve 10 tema renk ön ayarı içerir. Kullanıcı, varış noktası, seyahat planı veya not konusu girdikten sonra AI, uygun tasarım iskeletini seçer, metin konumlarını belirler, harita etiketleme parametrelerini işler ve tüm tasarım kararlarını HTML+CSS olarak yazar. Playwright render motoru, sonraki adımları üstlenir ve her sayfa için PNG olarak ekran görüntüsü üretir.

Seyahat blog yazarları için özellikle faydalı bir bileşen, harita modülüdür. MapLibre kullanılarak OpenStreetMap gerçek döşeme yükler ve çoklu konum işaretleme ile bağlantı desteği sağlar. Kullanıcılar yalnızca şehir veya turistik yer adını girerse, AI etiketli bir arka plan haritası oluşturur ve düzenlemeye entegre eder. Bununla eşleşen görsel kaynak iş akışı net bir öncelik sırasına sahiptir: kullanıcı tarafından sağlanan gerçek fotoğraflar en üst önceliklidir; kullanıcı görseli yoksa, otomatik arama sırası Unsplash → Pexels → Flickr CC → Wallhaven şeklindedir.

İşlem yedi adımda gerçekleştirilir: Intake (Giriş) → Style & Theme (Stil ve Tema) → Layout Selection (Düzen Seçimi) → Asset Prep (Malzeme Hazırlığı) → Compose & Render (Düzenleme ve İşleme) → Deliver & Review (Teslim ve İnceleme) → Iterate (Yeniden Düzenleme). Her adım, task dizinindeki .poster dosyalarında kaydedilir. Toplu görüntü üretimi için node render.mjs çalıştırılır, Playwright her birini sırayla işler. Ayrıca, gerçek bir tarayıcı ortamında DOM öğelerini ölçerek metin aşımını, yazı boyutu üst sınırını aşmayı ve footer bileşenlerinin çakışmasını tespit eden bir doğrulama betiği olan validate-social-deck.mjs mevcuttur.

Bu mekanizmanın tasarımı açık: yayılma modelleri gibi özgür ama öngörülemeyen değil, tipografi yazılımları gibi kesin ve kontrollü. Maliyeti, yaratıcılık özgürlüğünün 28 kareye sıkıştırılmasıdır. Kişisel fotoğraf tarzına, el ile çizilmiş öğelere veya düzensiz kolajlara bağımlı olan yaratıcılar için bu şablonlar verimlilik artışı değil, tasarım kısıtlamaları sunar.

Kullanım için CLI sürümü, Playwright ve Node ortamının kurulmasını ve Claude Code veya Codex API erişim haklarının alınmasını gerektirir. Geliştiriciler olmayan kullanıcılar için bir web sürümü de mevcuttur xiaohongshu.guizang.ai, ancak CLI sürümüyle功能 bütünlüğü açısından bir karşılaştırma yapılmamıştır. Geliştiricilerin X platformundaki birkaç tweet’i ve sürekli güncellenen README dosyası, projenin hâlâ hızlı bir şekilde geliştirildiğini göstermektedir.

Pikseller üretme modelinden gelmemektedir, ancak uygunluk uzun vadeli güvenlik anlamına gelmez

Xiaohongshu'nun AI içerik tespit mantığı, kamuoyuna açık bilgilere ve teknik verilere göre temel olarak ses-görüntü tanıma modeline dayanır. Bu model, görüntülerin piksel dağılım desenlerini analiz ederek içeriğin AI üreteci tarafından oluşturulup oluşturulmadığını belirler. Yayılma modelleri ve GAN'lar, görüntüler oluştururken piksel düzeyinde belirli istatistiksel özellikler bırakır; bu özellikler, kamera sensörlerinin yakaladığı doğal ışık-gölge, lens bozulmaları ve gürültü desenlerinden farklıdır. Ses-görüntü tanıma modelinin eğitim hedefi, tam olarak bu istatistiksel tutarsızlıkları tespit etmektir.

Şahin Usta becerisinin atlatma mantığı, üretici modellerden gelen hiçbir piksel çıkışı yapmaması üzerine kuruludur. HTML render motoru CSS stillerini rastgeleleştirir ve ortaya çıkan piksel dağılımı, tarayıcı arayüzü ekran görüntüsü veya masaüstü tipografi yazılımının çıktısına daha yakındır. Fotoğraf bölümleri, Unsplash gibi kütüphanelerden alınan gerçek insan fotoğraflarından oluşur; bu görüntüler kamera ile çekilmiştir ve insan tarafından son işleme tabi tutulmuştur, yayılma modeli izleri taşımaz.

Ancak bu ayrımın geçerli olması, platformun "Yapay Zeka tarafından üretilmiş sentetik içerik" tanımının tam olarak "Yapay Zeka modeli tarafından üretilen pikseller" hattında durması koşuluna bağlıdır. Xiaohongshu'nun resmi duyurusu "Yapay Zeka tarafından üretilmiş sentetik içerik" ifadesini kullanmaktadır ve orijinal metin kapsamı dar değildir. Platform tanımını "Yapay Zeka destekli tasarım programlarının oluşturduğu render çıktıları"na veya HTML rasterize edilmiş resimlerin tarayıcı render özelliklerini tanıma modeli eğitim veri setine dahil etmeye genişletirse, bu çözümün mevcut teknolojik avantajı kaybolacaktır.

Platform, genişletilmiş tanımlı teknik altyapı ve yönetim motivasyonuna sahiptir. Ses-görüntü tanıma modeli sürekli olarak geliştirilmektedir. Eğitim verilerine büyük miktarda HTML işlenmiş resimler ve AI tarafından üretilen resimlerin karşılaştırmalı örnekleri dahil edilirse, model “tarayıcı font renderinin subpixel anti-aliasing özelliği” ile “GAN’in metin üretimi sırasında oluşturduğu düzensiz piksel blokları” arasında ayrım yapmayı öğrenebilir. Şu ana kadar küçük bir yazılımın bu yönde bir eğitim başlatmış olduğuna dair açık bilgi bulunmamaktadır; ancak modelin yetenek sınırları göz önünde bulundurulduğunda, bu genişletmenin teknik olarak geçerli olduğu görülür.

Daha dikkat edilmesi gereken gerçek, küçük uygulama barındırma ile ilgili uyumluluk unsurlarıdır. Şu ana kadar bu Beceri'nin bir model kayıt numarasına bağlandığını veya ilgili uyumluluk kaydını tamamladığını açıklayan herhangi bir resmi belge görülmemektedir. Platform, içerik denetim sürecine çıktı araç zinciri izlenebilirliği talebini eklerse, kayıt bilgilerinin eksikliği yeni bir engel noktası haline gelebilir.

API şablon motoru, platform özelleştirme aracı ve HTML işleme, üç ayrı yola ayrılıyor

Sosyal medya için görsel oluşturan araçları gözlemlediğinizde, bunların üç farklı teknoloji yoluna ayrıldığını görebilirsiniz. Her biri farklı denetim riski yapılarıyla karşı karşıyadır.

AI model doğrudan görsel üretiyor. Bu yol, 2026 yılında Canva AI tarafından yayınlanan Magic Design özelliğini temsil ediyor ve metin ipuçlarından doğrudan AI görsel öğeleri içeren tasarımlar oluşturuyor. Midjourney, DALL·E gibi modellerin ürettiği görseller de bu kategoriye dahil. Soru net: Bu görseller, ses-görsel tanıma modellerinin ana hedefidir. Canva'nın yaklaşımı, tespiti kaçınmak yerine şeffaf etiketleme teşvik etmektir. Xiao Hong Shu'da, AI modeliyle üretilen gönderiler etiketlendikten sonra önerme ağırlığının düşüp düşmediği konusunda açık veri yoktur, ancak platformun "etiketlenmemiş AI içeriğinin dağıtımını sınırlama" ifadesi mevcut bir politikadır. Her dağıtım modeli güncellemesinde piksel istatistiksel özellikleri değişebilir ve ilgili tespit modelleri de eş zamanlı olarak geliştirilir; yaratıcılar sürekli hareket eden bir hedefle karşı karşıyadır.

API şablon motoru işler. Bannerbear bu yolda tipik bir örnektir. Kullanıcılar tasarımcıda şablon oluşturur, REST API aracılığıyla JSON verisi göndererek katman değişkenlerini değiştirir ve sunucu tarafında PNG veya JPG olarak işlenir. Çıktı, “model tarafından pikseller oluşturulması” değil, “program tarafından işlenmesi” temelindedir ve yayılma modeli izleri içermez. Çang Şifu Becerisi ile farkı şudur: Bannerbear şablonları insan tasarımıyla oluşturulur, AI düzenlemelerde yer almaz; Çang Şifu Becerisi ise Claude’ın doğrudan HTML’i okumasını ve yazmasını sağlar, düzenlemeyi AI’ya bırakır. Bannerbear çözümünün riski başka bir boyutta ortaya çıkar: Çok sayıda hesap aynı şablonu, aynı renk paletini ve aynı yazı tipini kullanarak görsel içerik ürettiğinde, hatta her bir görselin AI ile üretilmemiş olsa bile, platform tarafında “programlı toplu üretim” algılanır. Spam karşıtı kuralların tetiklenme koşulları tamamen AI tespitiyle aynı değildir, ancak toplu hesap işleten içerik üreticileri için sonuç aynıdır: Dağıtım kısıtlanır.

Platforma özel oluşturulmuş. Pin Generator, Pinterest için tasarlanmıştır ve platform algoritmasının tercihlerine uygun Pin görsellerini otomatik olarak üretir. Bu yolun temel amacı kaçış değil, tam uyum sağlamaktır—boyut, görsel tarz ve yayın hızı tümüyle platform standartlarına uygun şekilde ayarlanır. Avantajı, denetim riskinin en düşük seviyede olmasıdır; ancak dezavantajı da açıktır: aracın yetenekleri platform kurallarına bağlı kalır; Pinterest algoritmasını değiştirir veya üçüncü taraf API çağrılarını kısıtlarsa, araç doğrudan işlevini kaybeder. Çang Şifu Skill ile karşılaştırıldığında, ilk durum platforma özel bir araçken, ikincisi çoklu platformlu genel bir çözümdür. Platforma özel çözüm daha güvenli ancak daha kırılgandır; çoklu platformlu genel çözüm ise daha esnek ancak daha karmaşıktır—bu, AI araç alanında tekrar tekrar karşılaşılan bir tercih dengesidir.

Üç yolun risk yapıları farklıdır. AI'nın görüntü üretimi en özgürdür, ancak her güncelleme yeni bir algılama modeline cevap verir. Şablon motoru en kararlıdır, ancak spam kuralları tarafından yanlışlıkla etkilenme riski taşır. HTML işleme, bu ikisi arasında bir yerdedir: düzen, AI tarafından esnek bir şekilde kontrol edilir, pikseller ise tarayıcıya ve gerçek çekim malzemelerine bırakılır; bu, “AI tarafından üretilen pikseller” seviyesindeki algılamayı kaçırır, ancak platformun semantik düzeydeki kural genişlemelerine karşı koruma sağlamaz.

Dizayn sisteminin üst sınırı, kodda değil, içerik türünde yer alır.

28 adet şablon, dergi ve İsviçre tarzı olmak üzere iki ana görsel sistemi kapsar. Harita rotaları, zaman çizelgeleri ve çok günlük seyahat planları gösterme ihtiyacı olan seyahat blog yazarları için bu sistem yüksek uygunluğa sahiptir. Harita etiketlemesi ve seyahat bağlantıları bu notların temel bilgileridir; şablonlar, düzenlemeye profesyonel bir hava katarak bilgileri yapılandırır.

Ancak Xiaohongshu'nun içerik ekosistemi seyahat rehberlerinden çok daha zengindir. Giyim notları, bireysel fotoğraf stili ve renk tonuna dayanır; makyaj değerlendirmeleri yüksek çözünürlüklü mikro fotoğraflara ve ürün karşılaştırma görsellerine ihtiyaç duyar; yaşam tarzı içerikleri ise çoklu görsellerin bir araya getirilmesi ve el yazısı etiketlemelerine yoğun şekilde dayanır. Bu içerik türlerinin “düzenlemesi”, bilginin yapılandırılmış bir sunumu değil, bireysel estetik ve duyguların ifadesidir. 28 adet düzen iskeleti bu senaryoda bir araç değil, bir kısıtlamadır.

Teknik sınırlamalar da gerçek. Şu anda 1080×1440 (Xiaohongshu 3:4), 2100×900 (WeChat Public Account 21:9) ve 1080×1080 (WeChat Public Account 1:1) olmak üzere üç boyut desteklenmektedir. Douyin 9:16 dikey kapağı ve Bilibili 16:9 yatay kapağı desteklenmemektedir. Görsel kütüphanesi Unsplash ve Pexels’e dayanmaktadır; bu platformların malzemeleri kaliteli fotoğrafçılığa yöneliktir ve seyahat, manzara ve şehir mimarisi için uygun görüntüler sunar. Ancak yemek yakın çekimleri, kozmetik ürün sergileme ve giyim eşyaları gibi dikey içeriklerin sık kullanılan görselleri bu kütüphanelerde sınırlı ölçüde mevcuttur. Kullanıcı görsellerine öncelik verme stratejisi, yaratıcıların yeterli miktarda gerçek çekim malzemesine sahip olmaları durumunda bu sorunu kısmen hafifletebilir.

Doğrulama mekanizması iki yüzlü bir silahtır. validate-social-deck.mjs, görsel üretmeden önce düzen hatasını engelleyerek 100 kez toplu işlenmenin hata yapmasını önler. Bu, günlük onlarca görsel üretimi gerektiren operasyonel senaryolarda verimlilik garantisi sağlar. Ancak bu, önceden tanımlanmış düzen kurallarına uymayan her tasarımın betik tarafından reddedildiği anlamına gelir. Standart düzende eğik bir metin dekorasyonu veya özelleştirilmiş kenar boşlukları eklemek isteyen tasarımcılar, Canva'da olduğu gibi serbestçe sürükleyip bırakamaz; doğrudan HTML ve CSS kaynak kodunu düzenlemek zorundadır.

Yerel dağıtım eşik değeri, başka bir katmanlama noktasıdır. Playwright ve Node betiklerini çalıştıracak olan içerik üreticileri, düzen iskeletine ve işleme betiklerine kadar özelleştirme yapabilir. Ancak çoğu Xiaohongshu yazarı, web arayüzünün bir alt kümesine erişebilir. Bu iki kullanıcı grubu, bu Beceri’den elde edilen gerçek değer açısından büyük fark yaşar. Açık kaynak projesinin temel kullanıcı kitlesi, sıradan içerik üreticilerinin “tek tıkla görsel üretme” ihtiyacından ziyade, teknik bilgiye sahip ve uğraşmaya istekli içerik üreticileridir ve geliştiricilerdir.

Evrensel bir cevap yoktur, ancak teknik yol ayrımının kendisi zaten bir şeyi açıklamaktadır.

Bir Xiaohongshu seyahat blog yazarı üç seçenekle karşı karşıya: Midjourney kullanarak resim tarzı seyahat planları oluşturup, etiketlenme ve sıralamada düşüş riskini üstlenmek; Bannerbear ile şablonları ayarlayıp her gün veri toplamak ve şablon benzerliği nedeniyle spam algılama riskini üstlenmek; ya da Çang Usta'nın Skill'ini kullanarak AI'nın düzeni seçmesini sağlayıp HTML ile görseller oluşturmak ve platformun "sentetik içerik" tanımını genişletme riskini üstlenmek. Güvenli bir seçenek yok, sadece farklı risk yapılarının kombinasyonları var.

Bu yapı, platform ile AI araçları arasındaki mücadele döngüsünün başladığını iletiyor. Her platform güncellemesiyle birlikte, bir dizi aracın teknolojik avantaj dönemi sona eriyor. Yeni bir araç, bir kaçış yolu bulduğunda, platform tekrar stratejisini ayarlıyor. Bu, kararlı bir duruma ulaşacak bir süreç değil. HTML işleme çözümünün geçerlilik süresi, Xiaohongshu'nun ses ve görüntü tanıma modelinin eğitim yönünün “yayılma modeli piksel özellikleri”ne odaklanmaya devam edip etmeyeceği ya da “tüm yerel olmayan fotoğraf piksellerine” genişletip genişletmeyeceğiyle ilgilidir.

İçerik üreticileri için, "AI destekli" ile "AI ile değiştirilen" arasındaki fark artık pratik önem kazanıyor. Platformun tutumu açık: AI'yı yaratıcı bir güçlendirici olarak teşvik ediyor, ancak düşük kaliteli ve miktar odaklı üretimi insanlarla değiştirmeyi reddediyor. Zang Shifu Becerisi'nde, AI içerik üretmek yerine düzenlemeye karar veriyor, fotoğraflar gerçek çekimlerden geliyor ve düzenlemeler insan tasarımcılar tarafından önceden belirlenmiş bir iskeletle hazırlanıyor. Bu tam olarak "AI destekli" aralığında yer alıyor. Metinden görsellere kadar tümünü üretme modelleriyle oluşturulan görsel-metin içerikleri ise platformun açıkça hedef aldığı nesneler.

Bu ayrımın, platformun inceleme işlemi için bir operasyonel standart haline gelip gelmeyeceği henüz belirsiz. Ancak araç geliştiriciler, bu tanımı teknolojik seçimlerle yanıtlamaya başladı.