تضيقات سلسلة توريد الحوسبة بالذكاء الاصطناعي تنتقل من وحدات معالجة الرسوميات إلى الطاقة والتبريد

المؤلف: qinbafrank

في فبراير، تم مناقشة في مقال "ما الذي يعنيه هذا الحرب في الإنفاق الرأسمالي" أن العناصر الأساسية في سلسلة توريد القوة الحسابية لا تزال قادرة على استخلاص أكبر قيمة: الرقائق، التغليف والاختبار، التخزين، وحدات الضوء، إلخ؛ فكلما كانت الطاقة الإنتاجية أصعب في التوسع السريع، وكلما كانت لديها حواجز تنافسية عالية جدًا، كلما استفادت من عوائد الإنفاق الرأسمالي الهائل.

لا تزال هناك مساحة كبيرة لتحسين الكفاءة: تقنيات مثل التقطيع، والكمية، وMoE، والرقائق المتخصصة، والتبريد السائل، والاندماج النووي (على المدى الطويل) في طرف الاستنتاج يمكن أن تخفض استهلاك الطاقة والتكلفة لكل وحدة حسابية بمقدار 10 إلى 100 مرة. يجب البحث عن فرص في هذه المراحل.

أصدرت مؤخراً بنوك استثمارية متعددة، بما في ذلك مورغان ستانلي، جي بي مورغان، بنك أوف أمريكا، جولدمان ساكس، يونيكرد، سيتي، بيرنشتاين، وHSBC، تقارير تحديثية حول الذكاء الاصطناعي/شبه الموصلات/الطاقة/التخزين، حيث انتقلت عقدة أجهزة الذكاء الاصطناعي من البعد الواحد المتمثل في "نقص وحدات معالجة الرسوميات" إلى توتر جماعي في خمسة أبعاد: الطاقة، والرقائق، والتخزين، والمعدات، والمواد.

طلب الذكاء الاصطناعي قد تجاوز جميع نطاقات التنبؤ الخاصة بالتخطيط التقليدي للطاقة، وقدرة إنتاج معدات أشباه الموصلات، ونماذج أسعار التخزين، وافتراضات تركيب الروبوتات.

أشار تقرير مراجعة المواضيع العالمية من مورغان ستانلي إلى أن استهلاك رموز نماذج اللغة الكبيرة عالميًا أسبوعيًا ارتفع من 6.4 تريليون رمز إلى 22.7 تريليون رمز خلال ثلاثة أشهر، بزيادة قدرها 2.5 مرة، مع وجود عجز في طاقة مراكز البيانات الأمريكية بين عامي 2025 و2028 يبلغ 55 جيجاوات؛ وقد قدم جي بي مورغان لأول مرة تقييمًا مباشرًا لعجز التمويل بقيمة "122 جيجاوات خلال الخمس سنوات القادمة" في مشروعه للتمويل الخاص بحوسبة عالية الأداء في مراكز البيانات، حيث ارتفع تخطيط الطاقة الأمريكي على مدى خمس سنوات من 101 جيجاوات إلى 230 جيجاوات، مع انتظار 44% من المشاريع الجديدة أكثر من أربع سنوات للربط بالشبكة؛ وفي تقرير الهدف السعري الجديد الذي أصدره بنك أمريكا لشركة ألفابيت، تم رفع نفقات رأس المال لعام 2026 مباشرة إلى 181.5 مليار دولار، أي مضاعفة مقارنة بالعام السابق، مع انخفاض التدفق النقدي الحر بنسبة 62% على أساس سنوي. هذه المجموعات الثلاث من البيانات ليست ناتجة عن إطار واحد، بل هي صور مستقلة تم إنتاجها من قبل ثلاث مؤسسات مستقلة عبر مسارات بحثية مختلفة.

إن تطور العقبات في سلسلة صناعة أشباه الموصلات (وخاصة في مجال قوة الحوسبة للذكاء الاصطناعي) يسير وفق تسلسل واضح: من "الحوسبة (GPU) → التخزين (HBM وما شابه) → الربط الضوئي → الطاقة/التبريد السائل". هذا هو إجماع الصناعة لعامي 2025-2026، فمع توسع مجموعات تدريب/استنتاج الذكاء الاصطناعي من خزانة واحدة (بضع عشرات من وحدات GPU) إلى نطاق فائق الضخامة (آلاف إلى مئات الآلاف من وحدات GPU)، فإن حل كل عقبة يؤدي فورًا إلى كشف قيد فيزيائي أو إمدادي التالي، مما يخلق قيودًا تكميلية على نمط "ليونتيف" (يفتقد أي عنصر واحد منها لإمكانية التسليم).

وحدة الضوء

من الضروري فهم سبب حدوث هذا التطور، والوضع الحالي، والأسباب الفيزيائية/الهندسية وراءه:

1. العقبة في المرحلة الأولى: الحوسبة باستخدام GPU (الهيمنة بين 2022-2024) القيود الأساسية:

طاقة إنتاج الرقاقة الخاصة بـ GPU عالية الأداء (مثل NVIDIA Hopper H100 → Blackwell B200 → Rubin) بالإضافة إلى التغليف المتقدم.

لماذا أصبحت عقدة؟ تتطلب النماذج الكبيرة للذكاء الاصطناعي كمًا هائلاً من الحوسبة المتوازية، حيث أصبحت طاقة إنتاج تقنيات TSMC المنطقية 4 نانومتر/3 نانومتر/2 نانومتر مع CoWoS (التغليف 2.5D/3D) نقطة الاختناق الكبرى. حتى لو كانت هناك كمية كافية من الألواح الأمامية، فإن القدرة على تغليف ودمج الشرائح المنطقية مع HBM في المرحلة الخلفية لا تواكبها، مما يمنع إنتاج وحدات GPU بأكملها.

تخفيف الوضع: تقوم TSMC بتوسيع واسع النطاق لـ CoWoS (مضاعفة الطاقة الإنتاجية بين 2024 و2025)، وقد تم شحن NVIDIA Blackwell على نطاق واسع. لكن هذا يفتح فقط جزء "الحساب"، ليُكشف فورًا عن مشكلات جديدة.

2. العقبة في المرحلة الثانية: التخزين (HBM - ذاكرة النطاق الترددي العالي، ستكون الأكثر ندرة في 2024-2025)

القيود الأساسية: طاقة إنتاج HBM3/HBM3e/HBM4.

لماذا أصبحت المُعالجة عقبة: ارتفعت قوة معالجة GPU، لكن معلمات النموذج ازدادت بشكل هائل (تريليونات أو حتى عشرات التريليونات من المعلمات)، مما جعل نقل البيانات (عرض نطاق الذاكرة) يصبح "جدار الذاكرة". يمكن لـ HBM نقل عدة تيرابايت في الثانية، أي أسرع بـ 20 مرة على الأقل من ذاكرة DDR العادية. وبما أن HBM قريبة من رقاقة المنطق، فلا حاجة لنقل البيانات لمسافات طويلة، مما يوفر الطاقة.

يتطلب وحدة معالجة رسوميات B200 واحدة 192 جيجابايت فما فوق من HBM3e، ويصل إجمالي HBM في خزانة واحدة (NVL72) إلى 30-40 تيرابايت، مع احتياجات عرض نطاق ترددي تتجاوز بكثير DRAM التقليدي.

حالة سلسلة التوريد: فقط SK هايليكس وسامسونج وميموريك قادرون على إنتاج HBM بكميات كبيرة، والعملية معقدة (ثقوب السيليكون TSV + التراكب)، وقد بيعت جميع وحدات عام 2025 بالكامل، ولا يزال العرض أقل من الطلب في عام 2026، وارتفع السعر بنسبة 246% مقارنة بالعام السابق. حتى لو كانت شرائح GPU جاهزة، لا يمكن تجميعها أو تسليمها دون HBM، مما يؤدي إلى تأجيل نشر مجموعات الذكاء الاصطناعي بأكملها.

النتيجة: تحول التخزين من "سلعة" إلى نقطة حاسمة استراتيجية، حيث يمكن أن يصل حصة التخزين في النفقات الرأسمالية إلى 30%.

3. عقبة المرحلة الثالثة: الاتصال الضوئي (يتم التحول إليه في 2025-2026)

القيود الأساسية: الحدود الفيزيائية للكابلات النحاسية (NVLink/NVSwitch) من حيث النطاق الترددي، والمسافة، واستهلاك الطاقة، والوزن.

لماذا الانتقال إلى الضوء أمر لا مفر منه: يمكن الاعتماد على كابلات النحاس داخل خزانة واحدة (72 بطاقة GPU)، لكن عند التوسع إلى خزائن متعددة، وحتى ربط آلاف بطاقات GPU، فإن كابلات النحاس تعاني من تدهور شديد (المسافة الفعالة أقل من متر واحد عند عرض نطاق 1.8 تيرابايت/ثانية)، ووزن هائل (أكثر من 5,000 كابل نحاسي في خزانة NVL72، بإجمالي وزن 1.36 طن)، واستهلاك طاقة عالٍ (استبدال وحدات الضوء القابلة للإزالة بكابلات النحاس سيستهلك额外 20,000 واط). لا يمكن لسلامة الإشارة، أو التأخير، أو التبريد دعم مجموعات أكبر.

الحل: الانتقال إلى الاتصالات الضوئية (CPO: التغليف المشترك للضوء + تقنية الفوتونيات السيليكونية). تغليف محرك الضوء مباشرة بجانب GPU/ASIC، واستخدام الألياف البصرية لتحقيق التوسع، مع كثافة عرض نطاق أعلى واستهلاك طاقة أقل لكل بت ومسافة أطول.

وحدة الضوء

استثمرت NVIDIA بشكل كبير في GTC 2026، وقد استثمرت في شركات ضوئية، مما أدى إلى نمو هائل في الطلب على وحدات ضوئية بسرعة 800G/1.6T. أصبحت lite وBroadcom وCoherent وAyar Labs من الفائزين الجدد.

التقدم الحالي: وصلت الكابلات النحاسية إلى حدودها، وتحولت الاتصالات الضوئية من "خيار اختياري" إلى "ضرورية"، وتتجاوز حدود أداء مراكز بيانات الذكاء الاصطناعي.

4. العقبة في المرحلة الرابعة (الأكثر تقدمًا حاليًا): الطاقة + التبريد السائل (تصبح قيودًا فيزيائية نهائية اعتبارًا من عام 2026) القيود الأساسية: جدار الاستهلاك الطاقي + جدار التبريد + وصول الشبكة الكهربائية.

لماذا هو العقبة النهائية: ارتفع استهلاك الطاقة لكل وحدة GPU من 300 واط إلى 700-1200 واط، وارتفع استهلاك الطاقة للخزانة الواحدة من 10-20 كيلوواط (عصر CPU) إلى 120-200 كيلوواط أو أكثر. الحد الأقصى الفيزيائي للتبريد بالهواء التقليدي هو فقط 20-50 كيلوواط، والضوضاء وكمية الهواء واستهلاك الطاقة كلها غير مقبولة.

الجانب الكهربائي: تتطلب مراكز البيانات طاقة بمستوى جيجاواط، ويمكن أن يصل وقت الانتظار للربط بالشبكة الكهربائية إلى عدة سنوات، وتم تمديد فترات تسليم المعدات مثل المحولات والمحولات الحالة الصلبة إلى 100 أسبوع. وقد صرح الرئيس التنفيذي لشركة مايكروسوفت مباشرةً: "لدينا وحدات GPU ولكن لا توجد مآخذ كهربائية".

الجانب السائل: يجب التحول إلى التبريد السائل المباشر للرقاقة (Direct-to-Chip) أو التبريد بالغمر، مع دمج تقنيات مثل الميكروفلويدك واللوحات الباردة. وقد أظهرت تايوان سيميكوندكتور مانوفاكتورينغ كومباني (TSMC) تبريدًا سائلًا قائمًا على السيليكون على منصة CoWoS، بدعم لـ >2.6 كيلوواط TDP. وتصبح شركات التبريد السائل وإدارة الحرارة مثل Vertiv (VRT) جوهر البنية التحتية الجديدة.

سلسلة ردود الأفعال: متطلبات كفاءة استخدام الطاقة (PUE) أقل من 1.2، واسترداد الحرارة المهدرة، وتوصيل الطاقة النووية/مصادر الطاقة الجديدة أصبحت مواضيع جديدة. حتى لو تم حل جميع المراحل السابقة، لا يمكن تركيب الخزائن أو تشغيلها دون كهرباء وتبريد.

وحدة الضوء

المنطق الأساسي وراء تحول العقبات في سلسلة توريد قوة الحوسبة بالذكاء الاصطناعي: قوة الحوسبة بالذكاء الاصطناعي ليست مشكلة "نقطة واحدة"، بل هي دالة إنتاج ليونتيف على مستوى النظام — يجب أن تتطابق GPU وHBM والربط والكهرباء والتبريد وفقًا لأضعف عنصر. كلما حلّت الشركات الكبرى (مثل جوجل ومايكروسوفت وميتا) مشكلة، نقلت فورًا رأس المال والابتكار إلى المرحلة التالية.

حاليًا (2026)، نحن في مرحلة انتقالية بين "تسريع تطبيق الاتصالات الضوئية" و"التطبيق التجاري الواسع النطاق للطاقة/التبريد السائل"، ومن المحتمل أن تظهر عوائق جديدة في المستقبل (مثل الليزر، أو مواد الألياف البصرية، أو محولات الشبكة الكهربائية)، لكن سلسلة "الحوسبة → التخزين → الضوء → الكهرباء/التبريد" أصبحت مسارًا معترفًا به من قبل الصناعة.

وهذا يفسر أيضًا سبب تحول منطق الاستثمار من NVIDIA/TSMC إلى كبريات شركات HBM (مثل SK هايكس) وشركات الضوئيات (Lumentum، Coherent) والبنية التحتية للتدفق السائل/الطاقة (Vertiv، شركات الطاقة ذات الصلة).

كل انتقال للحاجز يعيد تشكيل توزيع القيمة في سلسلة صناعة أشباه الموصلات ومركز البيانات بالكامل.