تغمر الوجوه المولدة بالذكاء الاصطناعي مقاطع الفيديو القصيرة، مُثيرةً ردود فعل عامة سلبية

الوجه "القياسي" الذي تولده نماذج الفيديو بالذكاء الاصطناعي يغزو تدفق محتوى المستخدمين. يظهر هذا الوجه ذو الملامح الدقيقة والبشرة الفاتحة في مسلسلات جامعية، ومسلسلات تاريخية، وحتى في شخصيات تم تحويل جنسها، مما أثار استياءً واسعًا من المستخدمين. أظهرت الاختبارات أن نماذج فيديو متعددة رائدة تولد نفس الوجه عند استخدام نفس عبارة التوجيه، والسبب الجذري هو أن المنصة تفعّل تعزيز عبارة التوجيه افتراضيًا، بالإضافة إلى وجود تحيز جمالي في بيانات تدريب النموذج نفسها. ولضمان الاتساق في ملامح الوجه، يميل النموذج بشكل طبيعي إلى تفضيل الوجوه المتناظرة والملامح المعيارية. إن تداخل متطلبات المنصة والمستخدم والنموذج أدى إلى وقوع محتوى الذكاء الاصطناعي في فخ التماثل الجمالي. حذّر الباحثون من أن هذه الظاهرة قد تعزز التحيزات الجمالية المجتمعية.

مؤلف المقال، المصدر: تشاي بين X.PIN

تحتاج إلى صور لجمالات حقيقيات لتنظيف عينيك.

الأصدقاء الذين يشاهدون باستمرار المسلسلات القصيرة ومقاطع الفيديو القصيرة، يجب أن يكونوا على دراية بهذا الوجه.

قد يظن من لم يره أنه أحد المدونين الجدد، لكن في الواقع، هذه وجه مُنشأ بالذكاء الاصطناعي ظهر مرارًا وتكرارًا في مقاطع الفيديو الأخيرة.

ملامح الوجه متناسقة، العيون كبيرة بما يكفي، الأنف صغير بما يكفي، البشرة بيضاء دائمًا، مع فلتر إضاءة ناعم دائمًا، وانحناءة الفم مثالية.

إذا كان شخص حقيقي يقف أمامه، فربما حتى شيشاو لن يُخرج كلمة واحدة. لكن هذا الوجه الذي يبدو بريئًا تمامًا، تعرض لـ "التنمر الإلكتروني" بقسوة.

ليس لأنها قبيحة للغاية، بل لأنها مثل الشخص الذي يدخل الفريق بدعم مالي في عالم الذكاء الاصطناعي، فهي تظهر في كل شيء.

القمر الأبيض في الحرم الجامعي هي، والآنسة الكبرى في مسلسلات العصور القديمة هي أيضًا.

الفتاة الصغيرة التي تبلغ من العمر خمس أو ست سنوات هي هي، والمرأة العجوز التي تبلغ من العمر سبعين أو ثمانين عامًا هي هي أيضًا.

بإلقاء نظرة أكثر دقة، ووو، كيف لا يزال الرجل الكبير الذي يرتدي العمامة هو هي؟؟؟

ترى نفس الوجه كل يوم عند فتح هاتفك، وتشعر بخوف مفاجئ من كونك محاطًا بأشخاص مزيفين أثناء تصفح مقاطع الفيديو القصيرة.

ومع زيادة عدد من يكتشفون ذلك، امتلأت الشبكات بتعليقات المستخدمين الساخطة:

هذا الوجه، أكاد أتقيأ من رؤيته.

رؤية هذا الوجه الآن تسبب رد فعل فسيولوجي من النفور.

Combien de personnes se sentent mal à l'aise en la voyant ?

يتساءل البعض أيضًا: لماذا تُولّد الذكاء الاصطناعي جميع الوجوه بنفس الطريقة؟ من وجه من سرق؟

هناك من يخمن أن المذيعة المُحظورة هي شخص ما، ومن يقول إنها تشبه الممثل لي تشوان، ومن يرى أنها تشبه أخت بوك تشان لاي... لا يمكن إنكار أن الجميع، سواء داخل الصين أو خارجها، سواء رجال أو نساء، يبدون وكأنهم يملكون بعض أوجه التشابه.

لكن المشكلة أن التخمين لا يجلب أي إجابة مؤكدة، لأن الأمر أكثر احتمالاً أن يكون وجهًا "متوسطًا قياسيًا" غير موجود أصلًا، تم تشكيله مرارًا وتكرارًا على خط إنتاج جمالي ذكي.

كيف جاءت هذه الوجه؟

لم يُصدّق شيهاو المعتقدات الشائعة، فجرب مباشرةً نماذج الفيديو الشائعة مثل Seedance وKeLing وHaiLuo وHappyHorse، وخلال التجربة، اكتشف فعلاً بعض الأنماط.

منحنا جميع النماذج فرصة مرتين، باستخدام نفس مطالبة "فتاة تركب دراجة"، ومن المنطقي أن تكون الوجوه المولدة في كل مرة مختلفة، وأحيانًا تظهر وجهًا آسيويًا وأحيانًا وجهًا أجنبيًا، وهذا هو طبيعة النماذج الكبيرة.

بما أننا حددنا فقط الجنس، دون أي إشارات أخرى، فلا ينبغي أن يولد وجهًا فقط، بل يجب أن يولد أشخاصًا مختلفين تمامًا من أي جنسية، وأي لون بشرة، وأي تسريحة شعر أو ملابس، إلخ.

لكن في الواقع، نفس التعليمات تنتج نفس الوجه، نفس الملابس، نفس البيئة الخلفية، وزاوية التصوير تقريبًا بالكامل في كل محاولة من قبل معظم النماذج.

هنا في Seedance 2.0 Fast، وجد شيشاو نفس وجه الذكاء الاصطناعي تمامًا كما في البداية، يبدو أن هذا هو مصدر الشر.

إذا ارتكب نموذج واحد فقط خطأ، فقد يكون ذلك مشكلة فيه. لكن إذا فقدت جميع النماذج التنوع في نفس الوقت... قام Shi Chao بالتحقيق ووجد أن هناك ربما سببين هنا.

في المستوى الأول، يجب أن يعرف الجميع الذين يستخدمون نماذج الفيديو الشائعة أن نماذج الفيديو حساسة جدًا للنصوص التوجيهية. أحيانًا، ترتيب كلمة واحدة أو بضع حروف يمكن أن يؤثر على النتيجة النهائية المُولَّدة.

ولضمان قدر الإمكان استقرار سحب الجوائز في كل مرة، يتم تحسين تعليماتنا مرتين في الخلفية بعد إنشائها.

في السابق، كان يُعرض "تحسين الإرشادات" كزر منفصل على الجانب، حيث يمكن للمستخدمين استخدامه أو الاعتماد مباشرة على الإرشادات الأصلية. لكن بعد أن تحقق شيشاو من العديد من المنصات، يبدو أن هذا الخيار نادر الآن، وأصبح تحسين الإرشادات هو الخيار الافتراضي.

على سبيل المثال، إذا أدخلت "فتاة تركب دراجة وهي تضحك"، فقد يصبح النص المُحسّن الذي يُعطى للنموذج:

فتاة آسيوية شابة وجميلة تركب دراجة في طريق مظلل مشمس. بشرتها فاتحة، وملامحها دقيقة، عينان كبيرتان، أنف صغير، وشعر طويل يتطاير بطبيعية، ترتدي فستانًا أبيض، وتبتسم بابتسامة حلوة. اللقطة من منظور متوسط قريب، بإضاءة ناعمة وطبيعية، عمق مجال ضحل، أسلوب سينمائي، بأسلوب أنيق وصافي، تعبيرات الوجه طبيعية، الحركات سلسة، والصورة عالية الدقة وواقعية.

مشاهدة مرة أو مرتين، هذا يُسمى تحسين التعليمات البرمجية، لكن إذا استمررت في ذلك آلاف المرات، أليس هذا سيصبح خط إنتاج؟

لذلك، بعد أن عدّل شيهاو التعليمات البرمجية لوصف المظهر ببعض السمات، أصبحت الوجه في الزاوية اليمنى السفلى مختلفًا بشكل واضح. لكن دون أي إشارات بيئية إضافية، لا تزال الفتاة تركب على طريق مظلل.

لكن الجمال في الملامح ينقسم إلى أنواع كثيرة، وهناك العديد من الجميلات في العالم، فلماذا تعترف الذكاء الاصطناعي فقط بهذه؟

هذا يقودنا إلى السبب الثاني: نماذج الصور والفيديو لديها تحيز جمالي طبيعي.

بحث نُشر في مجلة "Nature" العام الماضي ناقش هذا السؤال بشكل واضح. ووجدوا في دراستهم أنه إذا حددت عرقًا معينًا، فإن الوجوه التي ينتجها النموذج تبدو جميعها كإخوة من نفس العائلة.

هذا التحيز الجمالي ينشأ في البداية من البيانات، على سبيل المثال، يفضل معظم الناس ملامح المشاهير، وبالتالي يتم تصنيفها تلقائيًا كـ"جميلة". النموذج لا يفهم شيئًا، كل ما عليه هو أن يتجه في هذا الاتجاه عند طلب "جميلة".

أثناء عملية التدريب، يُعزز النموذج هذا التحيز بشكل أكبر، مما يؤدي إلى أن الوجوه المولدة باستخدام نفس مصطلحات الميزة تصبح أكثر تشابهًا.

بالإضافة إلى ذلك، قد تُفاقم نماذج الفيديو بسبب تركيزها على الاتساق الزمني، التماثل الجمالي بشكل أكبر.

بعد كل شيء، يجب أن لا تكون الوجوه التي تولدها نماذج الفيديو جميلة فحسب، بل يجب أن تكون ثابتة، مع ضمان أن تبدو وكأنها نفس الشخص عبر عشرات أو مئات الإطارات، من جميع الاتجاهات.

لذلك فإن النموذج سيُظهر تفضيلًا طبيعيًا للوجوه التي يسهل الحفاظ على اتساقها، ذات ملامح متناظرة، وحواف معيارية، وسمات غير متطرفة، وتعبيرات سهلة التحكم، وتدوير الرأس دون تشوه.

بشكل عام، تفضل المنصة الأمان والجمال، ويحب المستخدمون المشاهير من المسلسلات القصيرة، ويفضل النموذج الاستقرار والمعايير، وعند جمع الجوانب الثلاثة معًا، ظهر الوجه الذي أرهق الجميع.

بصراحة، ليس فقط الصورة الأخيرة التي انتشرت على نطاق واسع، بل يكره شيشاو تقريبًا جميع النساء المثاليات التي أنشأها الذكاء الاصطناعي.

المصدر: Xiaohongshu @Alexander

إدخال وجوه الذكاء الاصطناعي إلى تدفق معلوماتنا يُعد تجربة كبيرة للتشويه السيبراني حدثت دون قصد.

وجه لا مثيل له في الواقع، ولد تحت غسل وترشيح بيانات المدونين المؤثرين العديدة.

و عندما تستولي على وقتنا الذي نقضيه في التمرير على الهواتف، وتستبدل النساء الحقيقيات المتنوعات، يشعر شيشاو بانزعاج شديد، لأن إدراكنا للعالم وتعريفنا للجمال يخضعان للضغط من قبل الذكاء الاصطناعي.

لذلك، قد يكون رد فعل الناس السلبي تجاه الوجوه الاصطناعية ناتجًا جزئيًا عن تأثير الوادي المرعب الناتج عن عدم الواقعية، ولكن أيضًا بسبب مقاومة فطرية للتجانس.

يقول البعض إن مقاطع الفيديو التي تنتجها الذكاء الاصطناعي ستكون أكثر وضوحًا وتفاصيل وأكثر شبهاً بالبشر مع الوقت، وعندما لا يستطيع الناس التمييز بين الحقيقة والزيف، فسيحبونها.

لكن شيهتشاو يعتقد أنه حتى لو تمكن التكنولوجيا من جعل الصورة الحقيقية والزائفة غير قابلتين للتمييز، فلا يمكننا أن نقع في حب وجه زائف مثالي لا يملك روحًا.

الصور، مصادر البيانات:

《الوجوه المولدة بالذكاء الاصطناعي تؤثر على الصور النمطية الجنسية والتوحيد العرقي》 N AlDahoul

Xiaohongshu, Douyin