باحث سابق في xAI يكشف عن التكاليف الخفية لتدريب الذكاء الاصطناعي بالفيديو

كشف إيثان هاي، باحث سابق في xAI، عن التركيب الحقيقي لتكلفة تدريب الذكاء الاصطناعي على الفيديو: يتطلب تخزين مليار مقطع فيديو مساحة 5 بيتا بايت، وتتجاوز تكلفة التخزين الشهرية 100 ألف دولار؛ بيانات الميزات المضغوطة تساوي حجم الفيديوهات الأصلية، وبإضافة التكاليف، تتجاوز تكلفة التخزين الشهرية 200 ألف دولار؛ تكاليف إدخال وخروج البيانات أعلى حتى من تكاليف التخزين. وتشير التقديرات الشاملة إلى أن تكلفة البيانات الواحدة قد تصل إلى ملايين الدولارات شهريًا، دون احتساب قوة معالجة GPU. ويشير الكاتب إلى أن ميزة الفيديو لا تكمن في الخوارزميات بل في البنية التحتية، حيث ستُحجب المنافسة إلى عدد قليل جدًا من اللاعبين، ويتشابه هيكل الصناعة مع مصانع أشباه الموصلات.

كاتب المقال، المصدر:宇航猿

بالنسبة لإنفاق الذكاء الاصطناعي، تدور في الصناعة أرقام مذهلة. فقد أنفقت xAI أكثر من مليار دولار لإنشاء تجمع الحوسبة الفائقة Colossus؛ وتشير التقارير إلى أن فواتير قوة الحوسبة الشهرية لـ OpenAI تصل إلى مئات الملايين من الدولارات؛ بينما تُرى الأموال التي جمعتها Anthropic في جولات التمويل الأخيرة من قبل الجمهور تقريبًا على أنها مكافئة مباشرة لساعات GPU.

ما يتحدث عنه الجميع تقريبًا هو القوة الحسابية. أصبحت GPU العملة الشائعة لقياس قوة شركة الذكاء الاصطناعي، وأيضًا الرقم الأكثر وضوحًا في كل تقرير تمويل.

لكن مؤخرًا، استمعت إلى بودكاست Latent Space الذي أجرى مقابلة مع إيثان هاي، الباحث السابق في xAI — عندما انضم إيثان إلى xAI في منتصف عام 2025، واجه حالة فارغة تمامًا: لا بنية تحتية، ولا بيانات، ولا نماذج جاهزة، ثم بنا خلال ثلاثة أشهر فريقًا صغيرًا نظام Grok Imagine لإنشاء الفيديوهات من الصفر، ووصل إلى مستوى رائد في الصناعة آنذاك.

عندما تحدث عن تكلفة تدريب نماذج الفيديو الواسعة النطاق، أشار إلى مجموعة من الأرقام، مما جعلني أدرك فجأة أن هذه الصناعة ربما كانت تحسب الحسابات بشكل خاطئ طوال الوقت.

فقط تخزين هذه الفيديوهات وبيانات الميزات يتطلب عدة ملايين من الدولارات شهريًا — وهذا دون حساب تكلفة قوة الحوسبة.

التكاليف الخفية في الفاتورة

كم تكلف البدء من الصفر إلى إنشاء نموذج فيديو ضخم؟ افترض أولاً أن فريقك يمتلك مناجمًا ويمكنه استخدام قوة معالجة GPU بحرية. حتى في هذه الحالة، قد لا تزال تقلل من تكلفة هذا المشروع الهائل.

إذا افترضنا أنك تدرب نموذجًا عالميًا لتوليد الفيديوهات، وقمت بجمع 1 مليار فيديو من الإنترنت، بمتوسط 5 ميغابايت لكل فيديو — وهذا تقدير متحفظ جدًا. فقط لهذه الخطوة، ستحتاج إلى مساحة تخزين قدرها 5 بيتا بايت. وفقًا لأسعار AWS S3، فإن تخزين 5 بيتا بايت بأسلوب قياسي سيكلف حوالي 100 ألف دولار شهريًا.

لكن هذا لا يزال الفيديو الأصلي.

قبل تدريب نموذج الفيديو، فإن الممارسة الشائعة في الصناعة هي استخدام VAE (المُشفِّر الذاتي التبايني) لضغط الفيديو إلى متجهات مميزة في "الفضاء الكامن" — لأن فيديو واحد مُفكَّك إلى بكسلات قد يحتوي على عشرات المليارات من الرموز، وهو ما لا يمكن لأي Transformer معالجته، لذا يجب ضغطه أولاً إلى متجهات متصلة يمكن للنموذج فهمها.

المشكلة أن بيانات الميزة المضغوطة هذه لها حجم يعادل الفيديو الأصلي، وتتطلب تخزينًا طويل الأجل وجاهزية لل استخدام في أي وقت.

بالتراكب، عشرات البترابايت، تتجاوز تكلفة التخزين الشهرية 200,000 دولار أمريكي.

ثم الأقل توقعًا: رسوم الدخول والخروج للبيانات.

يقول إيثان إن تكلفة النطاق الترددي لتنزيل مليار فيديو من الإنترنت على AWS أعلى من تكلفة تخزين هذه الفيديوهات. في كل تدريب، يجب سحب البيانات من طبقة التخزين إلى طبقة الحوسبة لتشغيلها مرة أخرى. تدريب نماذج الفيديو لا ينتهي بعد التدريب الأولي كما هو الحال مع نماذج اللغة — بل يتطلب تكرارًا وضبط معلمات واختبار نسب بيانات مختلفة، وكل تجربة تعني إعادة مرور كاملة على جميع البيانات. وكلما زاد عدد التجارب، زادت التكلفة بنسبة متناسبة.

بالتجميع، يقدر إيثان أن تكلفة البيانات وحدها تصل إلى ملايين الدولارات شهريًا، دون حساب تكاليف وحدات معالجة الرسوميات (GPU) بعد.

هذه الحسابات، لم أرَ أي تقرير عن صناعة الذكاء الاصطناعي يحسبها بالتفصيل.

تكاليف النطاق الترددي التي لا يمكن تحملها

هل الشركات التي تبني مراكز بيانات Colossus الخاصة بها، مثل xAI، توفر كمية كبيرة من التكاليف على التخزين والعرض الترددي؟

أجاب إيثان بشكل مباشر: "بالطبع، وفرت الكثير."

خلف هذه الجملة، يكمن سر هيكلية غير مُناقَشة كثيرًا في صناعة الذكاء الاصطناعي للفيديو.

بيانات تدريب نماذج اللغة الكبيرة هي نصوص، وحجمها خفيف نسبيًا، وبعد اكتمال التدريب، تكاد البيانات الأصلية تحقق مهمتها — فأنت لا تحتاج إلى استرداد كامل المجموعات النصية مرارًا وتكرارًا للتنفيذ أو الدقة الدقيقة. لكن بيانات الفيديو مختلفة تمامًا: حجمها أكبر بعدة درجات من النص، وكل تجربة تدريب تتطلب المرور الكامل عبر البيانات الكاملة.

كلما زادت سرعة التكرار، زادت تكلفة نقل البيانات؛ بينما أكّد إيثان مرارًا وتكرارًا أن سرعة التكرار هي بالضبط المتغير الأكثر أهمية في تطوير نماذج الفيديو.

هذا يخلق موقفًا مغلقًا مترابطًا: أنت بحاجة إلى التكرار السريع لتحسين جودة النموذج، لكن التكرار السريع يعني نقل البيانات بشكل متكرر، ونقل البيانات المتكرر على السحابة العامة سيُثقل كاهلك بالفواتير.

مسار إيثان نفسه هو مثال توضيحي. فقد شارك في تطوير نموذج كوزموس لدى NVIDIA، وخلال عمله أدرك أن نماذج الفيديو تخضع لـ"قانون الحجم" المشابه لنماذج اللغة، ولا تزال هناك مساحة كبيرة للتحسين. كان الخيار الذي واجهه في ذلك الوقت، من النظرة السطحية، "أحتاج إلى مزيد من وحدات معالجة الرسومات"، لكن هناك جملة أخرى بالغة الأهمية لم يذكرها صراحةً — فهو بحاجة إلى مكان لا يُحسب فيه التكلفة بناءً على فواتير AWS لتخزين ونقل البيانات. وكان هذا أحد الأسباب الأساسية لانتقاله إلى xAI، حيث وفر له Colossus البيئة المطلوبة.

كيف تُحسب هذه التكلفة للفِرق التي لا تمتلك بنية تحتية خاصة بها؟ تكلفة البيانات التي تصل إلى ملايين الدولارات شهريًا، المُضافة إلى قوة معالجة GPU، تعني أنه حتى لو كان لديك فريق خوارزميات رائد، وحتى لو جمعت التمويل الكافي، طالما كنت تستخدم السحابة العامة، فأنت تُسابق مراكز بيانات المنافسين المُنشأة ذاتيًا بفاتورة لا نهائية.

هذا الحد، لا يمكن لشركة ناشئة تمتلك خوارزميات ممتازة تجاوزه فقط من خلال "التفوق التقني".

حاجز المنافسة لنموذج الفيديو ليس النموذج

هذا يذكرني بمفارقة مثيرة للاهتمام.

في مجال نماذج اللغة الكبيرة، تشهد المنافسة بين "مفتوح المصدر مقابل مغلق المصدر" تنافسًا شديدًا، حيث مكّن ظهور سلسلة Llama العديد من الفرق الصغيرة من إنتاج منتجات تنافسية في نماذج اللغة، بل وحتى أجبرت OpenAI وAnthropic على خفض أسعار واجهات برمجة التطبيقات باستمرار. لكن في مجال توليد الفيديو، نرى مشهدًا مختلفًا تمامًا: فالفرق الوحيدة القادرة على إنتاج نماذج فيديو رائدة باستمرار هي Sora وVeo وKeling، وهي فرق مدعومة بموارد ضخمة، ولا توجد أي شركة نشأت من مجتمع مفتوح المصدر في مرآب.

يعزو الكثيرون هذا إلى "فجوة البيانات والقدرة الحسابية". هذا صحيح بالطبع، لكن الأرقام التي كشف عنها إيثان تخبرنا أن المشكلة أعمق من ذلك: تكلفة البنية التحتية لذكاء الفيديو، منذ البداية، حصرت عتبة المنافسة على مستوى عدد قليل جدًا من اللاعبين.

هذا يشبه إلى حد ما منطق صناعة أشباه الموصلات. إن سبب صعوبة إضعاف تايوان سيميكونداكتور ليس فقط بسبب تصميمها الأفضل، بل لأن إنشاء مصنع أشباه موصلات جديد يتطلب استثمارًا أوليًا يبلغ مئات المليارات من الدولارات، وهذه الحواجز نفسها هي أفضل خندق دفاعي. خندق دفاعي لذكاء الفيديو هو البنية التحتية للبيانات التي تبلغ عشرات البترابايت وفواتير النطاق الترددي الشهرية المتولدة باستمرار.

أضاف إيثان استنتاجًا أعمق في البودكاست: إن "الذكاء" في نماذج الفيديو يأتي في الغالب من نموذج اللغة الخلفي، وليس من نموذج التشتت الفيديو نفسه.

نماذج الفيديو التوزيعية تعتبر نسبيًا "بطيئة"، فهي تولد الصور فقط وفقًا للوصف النصي بدقة، فإذا كُتب "قطة"، فستولد قطة تقف أمام خلفية بيضاء نقية دون حركة — لأنك لم تخبرها ما هي الخلفية أو ما الذي تفعله القطة.

النموذج اللغوي الضخم الذي يقوم بإعادة صياغة التعليمات هو الذي يفهم نية المستخدم حقًا ويطوّر "قطة واحدة" إلى وصف دقيق بلغة كاميرا مفصلة. يقول إيثان أنه في فترة Cosmos، استخدم "خروفًا سعيدًا" كاختبار: دون إعادة صياغة التعليمات، كانت الصورة الناتجة تبدو مصطنعة تمامًا وخالية من الجودة؛ لكن بعد إضافة إعادة الصياغة، تغيرت النتيجة بشكل جذري — بينما لم يطرأ أي تغيير على نموذج التشتت الفيديوي نفسه.

هذا يعني أن ما يحدد مدى نجاح شركة في مجال الذكاء الاصطناعي للفيديو ليس فقط حجم معلمات نموذج الفيديو، بل قدرتها على دعم بنية تحتية مزدوجة تشمل نماذج اللغة ونماذج الفيديو معًا، وجعلها تعمل بتناغم فعال.

هذه مسابقة تُقاس بقوة الجسم الشاملة.

الميدان التالي، تم تحديده مسبقًا

Of course, the industry is also exploring solutions.

إن المنطق المشترك لهذه الاتجاهات — إعادة صياغة المُحفزات لجعل نموذج اللغة يعمل كـ"قائد" يُنسق بين عدة أدوات توليد فيديو، واستخدام برامج تقليدية مثل FFmpeg لمعالجة المراحل الوسيطة — هو تقسيم تكلفة استنتاج نموذج اللغة وتكلفة توليد نموذج التشتت الفيديو على مستويات منفصلة، مما يجعل كل طلب توليد فيديو أكثر دقة ويقلل من الحسابات غير الضرورية ونقل البيانات.

إيثان واثق تمامًا من اتجاه "وكلاء الفيديو". فهو يتوقع أن يحدث نقطة تحول بحلول نهاية هذا العام – عندما تصل جودة الفيديوهات التي ينشئها الوكيل إلى مستوى ثابت يسمح باستخدامها في الإعلانات التجارية، فقط حينها ستكون الشركات مستعدة حقًا لدفع الثمن، وسيتغير هيكل التكلفة بشكل كامل.

لكن هناك نقطة واحدة لن تتغير: من يتحكم في تخزين البيانات وتدفقها، يتحكم في نقطة انطلاق هذه اللعبة.

في مجال الذكاء الاصطناعي، فإن "الحواجز الحقيقية" تتناوب كل فترة زمنية. أولاً كان عدد المعلمات، ثم حجم بيانات التدريب، ثم تقنيات التوافق، ثم كفاءة الاستنتاج. الآن، يكشف الذكاء الاصطناعي الفيديوي عن الحاجز التالي — ليس اختراقًا خوارزميًا غامضًا، بل فاتورة بنية تحتية باردة.

This account was never meant to be affordable for everyone.

*صورة الغلاف من: iMini AI