مهارة Xiaohongshu AI تتجاوز قواعد التسمية الذكية باستخدام عرض HTML

في فبراير 2026، أصدرت Xiaohongshu إعلانًا يطلب من المحتوى المُنشأ بالذكاء الاصطناعي أن يُعرّف صراحةً، وسيتم تقييد توزيع المحتوى غير المُعرّف. بعد أكثر من ثلاثة أشهر، ظهر مشروع مفتوح المصدر يُسمى guizang-social-card-skill على GitHub، مخصص لإنشاء صور ونصوص بنسبة 3:4 لـ Xiaohongshu وغلافات قنوات WeChat. يعتمد مساره التقني على اختيار غير معتاد: لا يستخدم أي نموذج ذكاء اصطناعي لتوليد بكسلات الصور، بل يتم توليد整个 المشهد باستخدام HTML+CSS، مع استخدام صور من مكتبات صور حقيقية مثل Unsplash. الناتج ليس "صورة مُولدة بالذكاء الاصطناعي"، بل لقطة شاشة لصفحة ويب تم ترقيمها بواسطة محرك متصفح.

هذا الخيار يتوافق مع تغيير محدد. منذ عام 2026، أطلقت Xiaohongshu نموذجًا للتعرف على الصوت والصورة، من خلال تحليل أنماط توزيع بكسلات الصور وخصائص الصوت لتحديد المحتوى المُنشأ بواسطة الذكاء الاصطناعي. وفي نفس الفترة، تم معالجة أكثر من 800 ألف حساب مُستضاف بالذكاء الاصطناعي وأكثر من 150 ألف مقالة مزيفة بالذكاء الاصطناعي. بالنسبة للمُنشئين الذين يحتاجون إلى إنتاج متكرر للمحتوى النصي والمرئي، فإن احتمالية اكتشاف وتحديد الصور المُنشأة باستخدام Midjourney أو Canva AI تتزايد باستمرار. اختار Skill من Chang Shifu طريقًا آخر: جعل الذكاء الاصطناعي يتخذ قرارات التصميم، وترك البكسلات النهائية للمحركات التصويرية ومكتبة الصور الحقيقية.

هذه محاولة واعية للالتفاف التقني. لكن مدى نجاح هذه الخطة يعتمد على مرونة تعريف المنصة لمصطلح "المحتوى الاصطناعي المُنشأ بالذكاء الاصطناعي".

28 قالب تخطيط، والذكاء الاصطناعي مسؤول عن منطق التخطيط وليس الرسم

السيد زانغ، اسمه الأصلي غوي زانغ، سبق أن أصدر guizang-ppt-skill، وهو أداة ذكاء اصطناعي موجهة أيضًا لسيناريوهات تخطيط النصوص والصور. تركز هذه الأداة الجديدة، social-card-skill، على نطاق أضيق: موجهة لصور 3:4 على Xiaohongshu، وصور غلاف 1:1 و21:9 على WeChat Official Account، بدقة إخراج تبلغ 1080×1440 و1080×1080 و2100×900 على التوالي.

من الناحية المعمارية التقنية، يحتوي هذا المهارة على 28 هيكلًا للتصميم، مقسمًا إلى نظامين بصريين: Editorial (أسلوب المجلات، 16 هيكلًا) وSwiss (أسلوب السويسري الدولي، 12 هيكلًا)، مع 10 مجموعات مسبقة الألوان. بعد إدخال المستخدم للوجهة أو الرحلة أو موضوع الملاحظات، يتولى الذكاء الاصطناعي اختيار الهيكل المناسب، وتحديد مواقع النص، ومعالجة معلمات وضع العلامات على الخريطة، ثم يُسجّل جميع قرارات التصميم في HTML+CSS. ثم يأخذ محرك العرض Playwright المهمة التالية، ويُلتقط لقطات شاشة لكل صفحة ويُصدّرها بصيغة PNG.

مكون مفيد جدًا لمدوّني السفر هو وحدة الخريطة. فهي تستخدم MapLibre لتحميل شرائح OpenStreetMap الحقيقية، وتدعم علامات متعددة للمواقع وربطها بخطوط. يكفي أن يُدخل المستخدم اسم مدينة أو موقع سياحي، ليقوم الذكاء الاصطناعي تلقائيًا بإنشاء خريطة أساسية مُعلَّمة وتضمينها في التنسيق. كما أن سير العمل الخاص بمصادر الصور المرتبطة بها يمتلك أولويات واضحة: صور المستخدم الملتقطة مباشرة هي الأعلى أولوية؛ وفي غياب صور المستخدم، يتم استرجاع الصور تلقائيًا بالترتيب التالي: Unsplash → Pexels → Flickr CC → Wallhaven.

يتم تنفيذ العملية بأكملها على سبع خطوات: Intake → Style & Theme → Layout Selection → Asset Prep → Compose & Render → Deliver & Review → Iterate. تُسجل كل خطوة في ملف .poster داخل دليل task. عند إنشاء الصور دفعة واحدة، قم بتشغيل node render.mjs، حيث يقوم Playwright بعرض كل صورة على حدة. كما يوجد نص فحص آخر validate-social-deck.mjs يقيس عناصر DOM في بيئة متصفح حقيقية للكشف عن مشكلات التخطيط مثل تجاوز النص، تجاوز حجم الخط الحد الأقصى، وتداخل عناصر footer.

الهدف من تصميم هذه الآلية واضح: التحكم الدقيق مثل برامج الطباعة، وليس الحرية غير القابلة للتنبؤ مثل نماذج الانتشار. الثمن هو تقييد الحرية الإبداعية داخل 28 خلية. بالنسبة للمبدعين الذين يعتمدون على أنماط التصوير الشخصي أو العناصر المرسومة يدويًا أو التجميع غير المنتظم، فإن هذه الهياكل القالبية لا توفر تحسينًا في الكفاءة، بل قيودًا تصميمية.

من حيث متطلبات الاستخدام، يتطلب إصدار CLI تثبيت Playwright وبيئة Node، بالإضافة إلى الحصول على إذن API لـ Claude Code أو Codex. كما يوجد مدخل ويب على xiaohongshu.guizang.ai موجه للمستخدمين غير المطورين، لكن لم تُنشر مقارنات علنية بعد حول مدى اكتمال الوظائف مقارنة بإصدار CLI. تشير عدة تغريدات على منصة X وتحديثات متكررة لملف README من قبل المطورين إلى أن هذا المشروع لا يزال في مرحلة تطوير سريعة.

البكسلات ليست من نموذج توليد، لكن الامتثال لا يعني الأمان على المدى الطويل

يعتمد منطق كشف المحتوى بالذكاء الاصطناعي في Xiaohongshu، وفقًا للمعلومات العامة والبيانات التقنية، بشكل أساسي على نماذج التعرف على الصوت والصورة. تقوم هذه النماذج بتحليل أنماط توزيع البكسلات في الصور لتحديد ما إذا كان المحتوى مُنشأ بواسطة نموذج ذكاء اصطناعي. تترك نماذج الانتشار وGAN آثارًا إحصائية محددة على مستوى البكسلات عند إنشاء الصور، وتختلف هذه الآثار عن الأنماط الطبيعية للإضاءة والظلال، وتشوهات العدسة، وأنماط الضوضاء التي تلتقطها حساسات الكاميرا. هدف تدريب نموذج التعرف على الصوت والصورة هو التقاط هذه عدم الاتساق في الأنماط الإحصائية.

يقوم منطق تجنب مهارة شي جيان على تمييز أساسي: بيكسلات الصور التي يُنتجها لا تأتي من أي نموذج توليد. إن محرك عرض HTML يقوم بتحويل أنماط CSS إلى صور نقطية، مما ينتج توزيعًا للبكسلات يشبه إلى حد كبير لقطات شاشة واجهة المتصفح أو مخرجات برامج التنسيق السطحي. تأتي أجزاء الصور من مواد تصوير حقيقية من مكتبات مثل Unsplash، وهذه الصور تم التقاطها بكاميرات وتم معالجتها يدويًا، ولا تحمل أي آثار لنماذج التشتت.

لكن هذا التمييز يعتمد على افتراض أن تعريف المنصة لـ"المحتوى المُولَّد والمضمون بواسطة الذكاء الاصطناعي" يقتصر بالضبط على "بكسلات مُولَّدة بواسطة نموذج ذكاء اصطناعي". التعبير المستخدم في الإعلان الرسمي لـ Xiaohongshu هو "المحتوى المُولَّد والمضمون بواسطة الذكاء الاصطناعي"، وهو تعبير لا يغطي نطاقًا ضيقًا. بمجرد توسيع المنصة لتعريفها ليشمل "الإخراج الناتج عن برامج مُصممة بمساعدة الذكاء الاصطناعي"، أو إدراج سمات عرض المتصفح لصور HTML المُحوَّلة إلى رسم نقطي ضمن مجموعة تدريب النموذج، ستختفي المزايا التقنية الحالية لهذه الخطة.

المنصة لديها أساس تقني ودافع حوكمة موسّع. نموذج التعرف على الصوت والصورة يخضع لتطوير مستمر. إذا تم تضمين عينات مقارنة كبيرة من صور HTML المُصغّرة وصور مُولّدة بالذكاء الاصطناعي في بيانات التدريب، يمكن للنموذج تعلم التمييز بين "خصائص التخفيف الفرعي لخطوط المتصفح" و"كتل البكسل غير المنتظمة التي ينتجها GAN عند توليد النص". لا توجد حاليًا معلومات عامة تشير إلى أن Xiaohongshu قد بدأت تدريبًا في هذا الاتجاه، ولكن من حيث حدود قدرات النموذج، فإن هذا التوسع ممكن تقنيًا.

الحقيقة الأهم التي يجب الانتباه إليها هي العناصر الامتثالية المتعلقة باستضافة التطبيق الصغير. حاليًا، لم يُرَ أي وثيقة رسمية توضح أن هذه المهارة قد اتصلت برقم تسجيل النموذج أو أكملت التسجيل الامتثالي ذي الصلة. إذا أضافت المنصة متطلبات تتبع لسلسلة أدوات إنشاء الصور في عملية مراجعة المحتوى، فقد يصبح نقص معلومات التسجيل نقطة حظر جديدة.

مُحرّك قوالب API وأدوات تخصيص المنصة وعرض HTML، تُستخرج ثلاثة مسارات فرعية

عند مراقبة الأدوات المتاحة في السوق لإنشاء صور لوسائل التواصل الاجتماعي، ستجد أنها تنقسم إلى ثلاث مسارات تقنية مختلفة. كل مسار يواجه هيكلًا مختلفًا من مخاطر المراجعة.

يُنتج نموذج الذكاء الاصطناعي الصور مباشرةً. يمثل هذا المسار ميزة Magic Design التي أطلقتها Canva AI في أبريل 2026، والتي تُنشئ مشاريع تصميم تحتوي على عناصر بصرية بالذكاء الاصطناعي مباشرةً من نصوص التوجيه. تُصنف الصور التي يُنتجها نماذج مثل Midjourney وDALL·E ضمن نفس الفئة. السؤال واضح: هذه الصور هي الهدف الرئيسي لنموذج التعرف على الصوت والصورة. تتمثل استجابة Canva في تشجيع التسمية الشفافة، وليس تجنب الكشف. لا توجد بيانات عامة تؤكد ما إذا كانت منشورات الصور المُنشأة بالذكاء الاصطناعي على Xiaohongshu تُخفي وزن التوصية بعد التسمية، لكن سياسة المنصة المتمثلة في "تقييد توزيع المحتوى غير المُعرّف بالذكاء الاصطناعي" هي سياسة مُعتمدة بالفعل. مع كل تحديث لإصدار نموذج الانتشار، قد تتغير السمات الإحصائية للبكسل، ويتبع ذلك تحديث النموذج الكاشف، مما يعني أن المُنشئين يواجهون هدفًا متحركًا باستمرار.

معالجة قوالب API. Bannerbear هو مثال نموذجي على هذا المسار. يقوم المستخدمون بإنشاء القوالب في المصمم، ثم يرسلون بيانات JSON عبر واجهة برمجة تطبيقات REST لتعديل متغيرات الطبقات، حيث يقوم الخادم بعرض الناتج كصورة PNG أو JPG. نواته أيضًا هي "العرض البرمجي" وليس "توليد البكسلات بواسطة النموذج"، ولا يحتوي الناتج على آثار نماذج الانتشار. الفرق مع مهارة Zang Shifu هو أن قوالب Bannerbear تعتمد على التصميم اليدوي، ولا يشارك الذكاء الاصطناعي في اتخاذ قرارات التخطيط؛ بينما تسمح مهارة Zang Shifu لـ Claude بقراءة وكتابة HTML مباشرة، وتعطي اختيار التخطيط للذكاء الاصطناعي. خطر حل Bannerbear يكمن في بُعد آخر: عندما يستخدم عدد كبير من الحسابات نفس القالب، نفس الألوان، ونفس الخطوط لإنتاج الصور والنصوص، حتى لو لم تُنشأ أي صورة بواسطة الذكاء الاصطناعي، فسيتم تفعيل التعرف على "الإنتاج الجماعي الآلي" من جانب المنصة. شروط تفعيل قواعد مكافحة البريد العشوائي لا تتطابق تمامًا مع كشف الذكاء الاصطناعي، لكن بالنسبة للمبدعين الذين يديرون حسابات جماعية، فإن النتيجة نفسها هي تقييد التوزيع.

توليد مخصص للمنصة. مولد Pin مصمم خصيصًا لـ Pinterest، ويُنشئ تلقائيًا صور Pin تتوافق مع تفضيلات خوارزمية المنصة. جوهر هذه الاستراتيجية ليس تجنب القواعد، بل التكيف الكامل — حيث تتم مواءمة الأبعاد، وأسلوب التصميم البصري، ووتيرة النشر مع معايير المنصة. الميزة هي أقل مخاطر مراجعة، لكن العيب واضح أيضًا: قدرات الأداة مُقيَّدة بقواعد المنصة، وعندما تُعدّل Pinterest خوارزميتها أو تقيّد الوصول إلى واجهات برمجة التطبيقات من طرف ثالث، تصبح الأداة غير فعّالة مباشرة. بالمقارنة مع مهارة Master Zang، فإن الأول أداة مخصصة للمنصة، بينما الثاني حل عالمي متعدد المنصات. الأدوات المخصصة للمنصة أكثر أمانًا لكنها أكثر هشاشة، بينما الحلول متعددة المنصات أكثر مرونة لكنها أكثر تعقيدًا — وهي مفارقة تظهر مرارًا وتكرارًا في مجال أدوات الذكاء الاصطناعي.

تختلف هياك المخاطر بين الطرق الثلاثة. إن توليد الصور بواسطة الذكاء الاصطناعي هو الأكثر حرية، لكنه يُحدث تحديثات جديدة في كل مرة تتم فيها مطابقة نموذج كشف جديد. أما محرك القوالب فهو الأكثر استقرارًا، لكنه قد يتعرض لتأثيرات غير مقصودة من قواعد مكافحة البريد العشوائي. أما عرض HTML فيقع بين الطريقتين: يتم التحكم بالمخطط بشكل مرن بواسطة الذكاء الاصطناعي، بينما تُترك البكسلات للمتصفح والمواد المصورة حقيقية، مما يتجنب كشف "البكسلات المولدة بواسطة الذكاء الاصطناعي"، لكنه لا يستطيع التصدي لتوسعات القواعد الدلالية من قبل المنصة.

حد نظام التخطيط ليس في الكود بل في نوع المحتوى

تغطي 28 نموذجًا لهيكل التصميم أنظمتين بصريتين رئيسيتين: أسلوب المجلات وأسلوب سويسرا. هذه المجموعة متوافقة بشكل عالٍ مع مدوّني السفر الذين يحتاجون إلى عرض مسارات الخريطة، والجداول الزمنية، والرحلات المتعددة الأيام. تُعد ملاحظات الخريطة ووصلات الرحلات المعلومات الأساسية لهذه الملاحظات، حيث تقوم نماذج الهيكل بتنظيم هذه المعلومات مع الحفاظ على إحساس احترافي في التنسيق.

لكن نظام المحتوى على Xiaohongshu أعمق بكثير من إرشادات السفر. تعتمد ملاحظات الأزياء على أسلوب التصوير الشخصي واللون، وتحتاج مراجعات مستحضرات التجميل إلى صور مقرّبة عالية الدقة وصور مقارنة للمنتجات، ويُستخدم大量 صور مجمعة وتعليقات مكتوبة بخط اليد في محتوى نمط الحياة. إن "التنسيق" لأنواع المحتوى هذه ليس عرضًا منظمًا للمعلومات، بل تعبير عن الذوق الشخصي والعاطفة. في هذا السياق، لا تمثل العظام الـ28 للتنسيقات أدوات، بل قيودًا.

القيود التقنية حقيقية أيضًا. حاليًا، يتم دعم ثلاثة أبعاد: 1080×1440 (xiaohongshu 3:4)، 2100×900 (الحسابات العامة 21:9)، و1080×1080 (الحسابات العامة 1:1). لا يتم دعم غلافات الفيديو العمودية بنسبة 9:16 على دوينتي وغلافات الفيديو الأفقية بنسبة 16:9 على Bilibili. تعتمد مكتبة الصور على Unsplash وPexels، اللذين يركزان على صور فوتوغرافية عالية الجودة، مما يناسب احتياجات التصوير للسفر والمناظر الطبيعية والمباني الحضرية. لكن المواد الشائعة للمحتوى المتخصص مثل لقطات الطعام المقربة، وعرض مستحضرات التجميل، وقطع الملابس، تكون مغطاة بشكل محدود في هذه المكتبات. يمكن لاستراتيجية تفضيل صور المستخدمين تخفيف هذه المشكلة جزئيًا، بشرط أن يكون المنشئون يمتلكون بالفعل كمية كافية من الصور الملتقطة مباشرة.

آلية التحقق هي سيف ذو حدين. يمكن لـ validate-social-deck.mjs منع أخطاء التنسيق قبل إنشاء الصورة، مما يضمن عدم حدوث أي أخطاء في 100 عملية توليد جماعي. وهذا يمثل ضمانًا للإنتاجية في السيناريوهات التشغيلية التي تتطلب إنشاء عشرات الصور يوميًا. لكنه يعني أيضًا أن أي تصميم لا يتوافق مع قواعد التنسيق المحددة مسبقًا سيتم رفضه من قبل السكريبت. لا يمكن للمبدعين الذين يرغبون في إضافة زخرفة نصية مائلة أو هوامش مخصصة إلى التنسيق القياسي تعديلها بسهولة كما في Canva، بل يجب عليهم تحرير شفرة HTML وCSS المصدرية مباشرة.

إن عتبة النشر المحلي هي نقطة تمايز أخرى. يمكن للمبدعين الذين يمكنهم تشغيل نصوص Playwright وNode التعمق في هيكل التنسيق ونص العرض لإجراء تخصيصات. لكن بالنسبة لمعظم مُنشئي Xiaohongshu، فإن ما يمكنهم الوصول إليه هو مجموعة فرعية من وظائف الواجهة الويب. الفرق في القيمة العملية التي يحصل عليها هذان النوعان من المستخدمين من هذه المهارة كبير جدًا. المستخدمون الأساسيون للمشروع المفتوح المصدر هم المبدعون والمطورون المستعدون للتجربة ولديهم خلفية تقنية، وليس احتياجات "النقرة الواحدة لإنشاء الصورة" للمُنتجين المحتوى العاديين.

لا توجد إجابة سحرية، لكن انقسام المسارات التقنية يوضح المشكلة بالفعل

博主 صغير على Xiaohongshu يواجه ثلاثة خيارات: استخدام Midjourney لإنشاء صور رسمية للرحلة، مع تحمل خطر التصنيف والتخفيض في الترتيب؛ أو استخدام Bannerbear لإعداد قوالب وتعبئتها تلقائيًا بالبيانات يوميًا، مع تحمل خطر التشابه في القوالب وخطر التصنيف كمحتوى غير مرغوب فيه؛ أو استخدام مهارة Zang Shifu، حيث يختار الذكاء الاصطناعي التخطيط ثم يُعرض الصورة باستخدام HTML، مع تحمل خطر توسيع المنصة لتعريف "المحتوى المُولَّد" بشكل أوسع. لا توجد خطة آمنة، بل فقط مجموعات مختلفة من هياكل المخاطر.

هذا الوضع ينقل رسالة واحدة: لقد بدأ التفاعل التنافسي بين المنصة وأدوات الذكاء الاصطناعي. كلما تقوم المنصة بتحديث نموذج الكشف، تنتهي فترة الاستفادة التقنية لعدد من الأدوات. وكلما تجد أداة جديدة طريقة للالتفاف، تقوم المنصة بتعديل استراتيجيتها. هذه ليست عملية ستصل إلى حالة مستقرة. مدة صلاحية حلول عرض HTML تعتمد على ما إذا كان نموذج التعرف على الصوت والصورة في Xiaohongshu سيستمر في التركيز على "ميزات البكسل في نماذج الانتشار" أم سيوسع نطاقه ليشمل "جميع بيكسلات الصور غير الأصلية".

للمحتوى الإبداعي، أصبح التمييز بين "المساعدة بالذكاء الاصطناعي" و"الاستبدال بالذكاء الاصطناعي" ذا أهمية عملية. موقف المنصة واضح: يُشجع الذكاء الاصطناعي كمُضخّم إبداعي، ويُعارض استخدامه لاستبدال البشر في الإنتاج الجماعي منخفض الجودة. في مهارة "زان شيفو"، يقوم الذكاء الاصطناعي باتخاذ قرارات التنسيق وليس توليد المحتوى، والصور ملتقطة فعليًا، والتصميمات هي هيكل مُسبق التصميم من قبل المصممين البشريين. وهذا يقع بالضبط ضمن نطاق "المساعدة بالذكاء الاصطناعي". أما تلك المنشورات التي تُنتج فيها النصوص والصور بالكامل باستخدام نماذج التوليد، فهي الأهداف التي تسعى المنصة بوضوح للحد منها.

ما زال غير مؤكد ما إذا كان هذا التمييز سيصبح معيارًا تشغيليًا لمراجعة المنصة. لكن مطوري الأدوات يجيبون بالفعل على هذا التعريف باستخدام التكنولوجيا.