يصبح المعالج المركزي عقبة جديدة في عصر الذكاء الاصطناعي مع تجاوز الطلب تركيز وحدات معالجة الرسوميات

على مدار السنوات التي شهدت طفرة الذكاء الاصطناعي، سيطرت صناعة تقريبًا منطق واحد: القوة الحسابية تحدد الحد الأقصى، والـ GPU هي جوهر القوة الحسابية.

لكن مع دخول عام 2026، بدأ هذا المنطق في التغيير: لم يعد استنتاج النموذج هو العائق الوحيد، بل أصبح أداء النظام يعتمد بشكل متزايد على قدرات التنفيذ والجدولة. لا تزال وحدات معالجة الرسوميات مهمة، لكن العامل الحاسم لـ"能否 تشغيل الذكاء الاصطناعي" يتحول تدريجيًا إلى وحدة المعالجة المركزية التي تم تجاهلها لفترة طويلة.

في 9 أبريل بتوقيت الولايات المتحدة، وقّعت جوجل مع إنتل اتفاقًا多年ًا لنشر واسع النطاق لمعالجات "إنتل زيون" في مراكز بيانات الذكاء الاصطناعي العالمية، وذلك من أجل حل هذا العائق. وقال الرئيس التنفيذي لإنتل، تشين ليوو، بصراحة إن الذكاء الاصطناعي يعمل على كامل النظام، والمعالج المركزي ووحدة معالجة الشبكة هما المفتاح للإنتاجية والكفاءة والمرونة. وبعبارة أخرى، فإن المعالج المركزي الذي تم اعتباره "دورًا ثانويًا" خلال السنتين الماضيتين يعوق حاليًا توسع الذكاء الاصطناعي.

Google

أعلن الرئيس التنفيذي لشركة إنتل، تشين ليوو، على وسائل التواصل الاجتماعي أن إنتل تعمق شراكتها مع جوجل من خلال التوسع من وحدات المعالجة المركزية التقليدية إلى بنية تحتية للذكاء الاصطناعي (مثل IPU)، بهدف تعزيز قدرات الذكاء الاصطناعي والحوسبة السحابية معًا.

لم يعد CPU مجرد مكون مساعد سلبي، بل يصبح أحد المتغيرات الأساسية في بنية الذكاء الاصطناعي.

01 أزمة عرض "هادئة"

بينما يركز الجميع على فترات تسليم وحدات معالجة الرسوميات، أصبحت أسواق وحدات المعالجة المركزية متوترة بشكل خفي.

وفقًا لأحدث التقارير من عدة موزعين لتكنولوجيا المعلومات، ارتفع متوسط سعر بيع وحدات معالجة الخوادم بنسبة حوالي 30٪ في الربع الرابع من عام 2025. هذا الارتفاع نادر جدًا في سوق وحدات المعالجة المركزية الناضجة نسبيًا.

كشف فورست نورود، رئيس قسم مراكز البيانات في AMD، أن الطلب على وحدات المعالجة المركزية ارتفع بسرعة تفوق التوقعات خلال الأربعة ربعيات الماضية. حاليًا، امتدت فترات تسليم AMD من ثمانية أسابيع إلى أكثر من عشرة أسابيع، وبعض الطرازات تواجه تأخيرات تصل إلى ستة أشهر.

يُعزى هذا النقص بشكل رئيسي إلى ضغط الموارد الناتج عن "التأثيرات الثانوية". ووفقًا لخبراء في الصناعة، فإن خط إنتاج تايوان سيميكوندكتورز (TSMC) لتقنية 3nm مزدحم بشدة، مما يؤدي إلى استمرار استحواذ طلبات GPU ذات الربحية الأعلى على قدرات الألواح التي كانت مخصصة أصلاً لوحدات المعالجة المركزية (CPU). وهذا يخلق موقفًا ساخرًا بشكل كبير: فمع أن مختبرات الذكاء الاصطناعي تمتلك كمية كافية من وحدات معالجة الرسوميات (GPU)، إلا أنها تجد صعوبة في شراء كمية كافية من وحدات المعالجة المركزية (CPU) المتقدمة لـ"تشغيل" هذه البطاقات.

في موجة الشراء هذه للـ CPU، هناك أيضًا إيلون ماسك.

أكد ليو تشين، الرئيس التنفيذي لشركة إنتل، على منصة التواصل الاجتماعي أن ماسك كلف إنتل بتصميم وتصنيع شرائح مخصصة لمشروعه "Terafab" في تكساس. يهدف هذا المشروع الضخم إلى توفير قاعدة حسابية موحدة لـ xAI وSpaceX وTesla.

ثقة ماسك في إنتل تعود إلى حد كبير إلى أن إنتل تحاول دمج نفسها في كل مستوى، من مراكز البيانات الأرضية إلى الحوسبة في المدار الفضائي.

Google

بالنسبة لإنتل، فإن هذا يُعد دفعة قوية. فعلى الرغم من توقع محللين صناعيين أن حصة إيه إم دي من إيرادات سوق وحدات المعالجة المركزية للخوادم ستتجاوز إنتل بحلول عام 2026، إلا أن التأثير العميق وقدرات التصنيع لإنتل ضمن نظام إكس 86 لا تزال عوامل لا يمكن للعملاء الكبار مثل ماسك تجاهلها.

هذا الربط العميق عبر الصناعات يرفع من منافسة سوق المعالجات المركزية من مجرد مقارنة المعلمات إلى مسابقة على الاستقرار البيئي وسلاسل التوريد.

02 لماذا يصبح المعالج المركزي "العنصر المحدود"؟

أصبح المعالج المركزي عائقًا مفاجئًا، لأن المهمة التي يتعين عليه تحملها تغيرت جذريًا في عصر الوكلاء.

في نموذج الروبوتات الدردشية التقليدي، تُشرف وحدة المعالجة المركزية (CPU) على الجدولة ومعالجة البيانات، بينما تتحمل وحدة معالجة الرسومات (GPU) حسابات الاستدلال الأساسية. نظرًا لأن المراحل الكثيفة حسابيًا تتركز على جانب GPU، فإن التأخير الكلي يُحدد عادةً بواسطة GPU، ونادرًا ما تصبح وحدة المعالجة المركزية عائقًا في الأداء.

لكن أحمال عمل الوكلاء مختلفة تمامًا. يحتاج الوكيل إلى تنفيذ استدلال متعدد الخطوات، واستدعاء واجهات برمجة التطبيقات، وقراءة وكتابة قواعد البيانات، وتنسيق تدفقات عمل معقدة، ودمج النتائج الوسيطة لإنتاج مخرجات نهائية. تقع مهام مثل البحث، واستدعاء واجهات برمجة التطبيقات، وتنفيذ التعليمات البرمجية، وإدخال/إخراج الملفات، وتنسيق النتائج في الغالب على جانب المعالج المركزي والنظام المضيف. بينما يتحمل المعالج الرسومي توليد الرموز (أي "التفكير")، ويتحمل المعالج المركزي تحويل نتائج "التفكير" إلى إجراءات عملية.

في ورقة بحثية نُشرت في نوفمبر 2025 من قبل باحثين من معهد جورجيا التقني بعنوان "منظور مركّز على المعالج المركزي حول الذكاء الاصطناعي الفاعل" (A CPU-Centric Perspective on Agentic AI)، تم تحليل كمي لتوزيع التأخير في أحمال العمل الفاعلة. ووجدت الدراسة أن الوقت المستهلك في معالجة الأدوات على المعالج المركزي يشكل ما بين 50% و90.6% من إجمالي التأخير. وفي بعض السيناريوهات، يكون المعالج الرسومي جاهزًا لمعالجة الدفعة التالية، بينما لا يزال المعالج المركزي ينتظر عودة استدعاء الأداة.

عامل آخر حاسم هو التوسع السريع لنافذة السياق. في عام 2024، كانت النماذج الرائدة تدعم عادةً من 128K إلى 200K رمز. مع دخول عام 2025، بدأت نماذج مثل Gemini 2.5 Pro و GPT-4.1 و Llama 4 Maverick في دعم أكثر من مليون رمز. يزداد ذاكرة التخزين المؤقت KV (Key-Value Cache، المستخدمة لتسريع عملية الاستدلال في نماذج Transformers) بشكل خطي مع عدد الرموز، وعند مليون رمز تصل إلى حوالي 200 جيجابايت، وهو ما يتجاوز بكثير سعة ذاكرة GPU البالغة 80 جيجابايت لوحدة H100 الواحدة.

أحد حلول هذه المشكلة هو نقل جزء من ذاكرة التخزين المؤقت KV إلى ذاكرة CPU. وهذا يعني أن CPU لن يقتصر على إدارة التوجيه واستدعاء الأدوات فحسب، بل سيُساعد أيضًا في استيعاب البيانات التي لا يمكن تخزينها في الذاكرة الظاهرية. وبالتالي، تصبح سعة ذاكرة CPU، وعرض النطاق الترددي للذاكرة، وسرعة الاتصال بين CPU وGPU عوامل حاسمة لأداء النظام.

لذلك، فإن المعالج المناسب لعصر الوكلاء يحتاج إلى قدرات منخفضة التأخير ووصول متسق إلى الذاكرة، بالإضافة إلى قدرات تعاونية أقوى على مستوى النظام، بدلاً من التوسع الفردي في حجم النواة.

03 ماذا يفعل المصنعون؟ البعض يتنافس على الأسواق، والبعض الآخر يغير التصميم

في مواجهة طلب مفاجئ على وحدات المعالجة المركزية، تختلف استراتيجيات الشركات الكبرى بشكل كامل.

إن إنتل هي الشركة الرائدة في سوق معالجات الخوادم التقليدية. وفقًا لبيانات Mercury Research، احتفظت إنتل بنسبة حصة 60% في سوق معالجات الخوادم في الربع الرابع من عام 2025، بينما احتلت AMD نسبة 24.3%، وNVIDIA نسبة 6.2%. لكن إنتل كانت تسعى جاهدة لمواكبة التقنيات الجديدة على مر السنين، وهذه الانفجار في الطلب على المعالجات يمثل فرصة وتحديًا لها في آنٍ واحد.

استراتيجية إنتل الحالية تقوم على خطين متوازيين. من ناحية، تستمر في بيع معالجات Xeon والارتباط العميق مع عملاء ضخמים مثل جوجل؛ ومن ناحية أخرى، تتعاون مع SambaNova لطرح حل مدمج يعتمد على معالجات Xeon ومحفزات RDU المطورة داخليًا، مع التركيز على ميزة "تشغيل استدلال الوكلاء دون الحاجة إلى وحدات معالجة الرسوميات". ستكون خريطة طريق معالجات Xeon 6 Granite Rapids وتقنية التصنيع 18A بمثابة اختبار حاسم لقدرة إنتل على تحقيق انقلاب.

AMD هي واحدة من أكبر المستفيدين من الانفجار في طلب وحدات المعالجة المركزية هذه المرة. في الربع الرابع من عام 2025، بلغ دخل AMD من مراكز البيانات 5.4 مليار دولار أمريكي، بزيادة قدرها 39% على أساس سنوي. وشكلت وحدات EPYC من الجيل الخامس Turin أكثر من نصف إيرادات وحدات المعالجة المركزية للخوادم، مع نمو في نشر أمثلة السحابة التي تعمل بـ EPYC بنسبة تزيد عن 50%. وتجاوز حصة إيرادات وحدات المعالجة المركزية للخوادم الخاصة بـ AMD لأول مرة نسبة 40%.

رئيسة تنفيذية لشركة AMD، ليسا سو، نسبت سبب النمو مباشرة إلى تطور "الوكلاء" — حيث أعادت أحمال عمل الوكلاء المهام إلى وظائف CPU التقليدية.

في فبراير 2026، أعلنت AMD أيضًا عن صفقة محتملة مع Meta بقيمة تزيد عن 100 مليار دولار، تشمل توريد وحدات معالجة الرسوميات MI450 ووحدات المعالجة المركزية Venice EPYC.

ومع ذلك، لا تزال AMD تمتلك مجالًا للتحسين في التنسيق على مستوى النظام، حيث تفتقر إلى قدرات متقدمة مثل NVLink C2C للربط عالي السرعة بين CPU وGPU. مع تزايد متطلبات أنظمة الوكلاء (Agent) من حيث كفاءة تبادل البيانات والتنسيق، فإن أهمية هذا الجانب تتزايد تدريجيًا.

فكرة تصميم NVIDIA للـ CPU تختلف تمامًا عن فكرة إنتل وAMD.

يحتوي معالج NVIDIA Grace على 72 نواة فقط، بينما عادةً ما يحتوي معالجات AMD EPYC وIntel Xeon على 128 نواة. شرح دايون هاريس، مدير بنية النظم الذكية في NVIDIA: "إذا كنت شركة ضخمة، فأنت ترغب في تعظيم عدد النوى لكل معالج، مما يقلل بشكل أساسي التكلفة، أي تكلفة الدولار لكل نواة. لذا فهي نموذج عمل."

بعبارة أخرى، في نظام قوة الحوسبة بالذكاء الاصطناعي، لم يعد دور CPU هو القوة الرئيسية للحوسبة العامة، بل أصبح "مركز التوزيع" الذي يخدم GPU. إذا لم يواكب CPU، فسيضطر GPU المكلف إلى الانتظار، مما يؤدي إلى انخفاض الكفاءة العامة.

لذلك، تم تصميم نيفيديا لتعطي الأولوية للتعاون الفعال بين وحدة المعالجة المركزية ووحدة معالجة الرسومات. على سبيل المثال، من خلال اتصال NVLink C2C، تم زيادة عرض النطاق الترددي بين وحدة المعالجة المركزية ووحدة معالجة الرسومات إلى حوالي 1.8 تيرابايت/ثانية، وهو ما يفوق بكثير PCIe التقليدي، حيث يمكن لوحدة المعالجة المركزية الوصول مباشرة إلى ذاكرة وحدة معالجة الرسومات، مما بسّط إدارة ذاكرة التخزين المؤقت KV بشكل كبير.

حاليًا، تبيع نيفيديا Vera CPU كمنتج مستقل. إن CoreWeave هي العميل الأول. أما معاملة ميتا فهي أكثر إثارة، حيث تُعد أول "نشر نقي لـ Grace" على نطاق واسع، أي نشر مستقل واسع النطاق للـ CPU دون زوج من وحدات معالجة الرسومات.

أشار بن بجارين، المحلل الرئيسي في مؤسسة Creative Strategies، إلى أنه في أنظمة التعاون المكثفة، يجب أن تكون قدرة وحدة المعالجة المركزية متوافقة مع سرعة التكرار الخاصة بالمحفزات. إذا حدث تأخير بنسبة واحد في المائة حتى في قناة البيانات، فسيؤدي ذلك إلى تقليل كبير في الكفاءة الاقتصادية لمجموعة الذكاء الاصطناعي بأكملها. إن هذا السعي وراء كفاءة نظام قصوى يجبر جميع الشركات الكبرى على إعادة تقييم مؤشرات أداء وحدات المعالجة المركزية.

قال هولغر مولر، نائب رئيس أبحاث كونستيليشن والمحرر الرئيسي، مع تحول أحمال الذكاء الاصطناعي نحو هياكل مدعومة بالوكلاء، فإن دور المعالج المركزي يصبح أكثر جوهرية. وأضاف: "في عالم الوكلاء، يحتاج الوكلاء إلى استدعاء واجهات برمجة التطبيقات وتطبيقات الأعمال المختلفة، وهي المهام التي تُنفَّذ بأفضل شكل بواسطة المعالج المركزي."

وأضاف: "حاليًا، لا توجد إجماع حول ما إذا كانت GPU أو CPU أكثر ملاءمة لمهام الاستدلال. تتمتع GPU بميزة في تدريب النماذج، بينما تمتلك وحدات معالجة مخصصة مثل TPU تخصصاتها الخاصة. لكن هناك نقطة واحدة واضحة: تحتاج جوجل إلى اعتماد بنية معالجات هجينة. لذا، فإن اختيار جوجل للتعاون مع إنتل هو خيار منطقي."

04 الخاتمة: عصر الوكلاء الذكية، تعود موازين الحوسبة إلى توازنها

في أحدث ملاحظات الصناعة، هناك بيانات تحتاج إلى انتباهنا. في اتفاقية التعاون بين أمازون AWS وOpenAI التي تصل قيمتها إلى 38 مليار دولار، ذكرت الشركة رسميًا حجم التوسع "بملايين وحدات المعالجة المركزية".

على مدار السنوات القليلة الماضية، كان تركيز الصناعة عادةً على "مئات الآلاف من وحدات معالجة الرسومات". ومع ذلك، قامت مختبرات رائدة مثل OpenAI بجعل حجم وحدات المعالجة المركزية متغيرًا مهمًا في التخطيط، مما أرسل إشارة واضحة للخارج: يجب أن يستند توسيع أحمال الوكلاء إلى بنية تحتية ضخمة من وحدات المعالجة المركزية.

تتوقع بنك أمريكا أن ينمو حجم سوق وحدات المعالجة المركزية العالمية من 27 مليار دولار حاليًا إلى 60 مليار دولار بحلول عام 2030، وسيكون هذا النمو الإضافي مدفوعًا بالذكاء الاصطناعي تقريبًا بالكامل.

نحن نشهد انتشار بنية تحتية جديدة تمامًا: لم تعد الشركات الكبرى تكتفي بزيادة وحدات GPU، بل توسع أيضًا طبقة كاملة من "بنية تحتية لجدولة CPU" مخصصة لدعم تشغيل الوكلاء الذكاء الاصطناعي.

الشراكة بين إنتل وغوغل، بالإضافة إلى الاستثمارات الضخمة من ماسك في الرقائق المخصصة، تثبت جميعها حقيقة واحدة: نقطة الانتصار في سباق الذكاء الاصطناعي تتحرك للأمام. عندما لم يعد الحوسبة نادرة، فمن سيحل أولًا "العقدة" على مستوى النظام، سيكون هو من ينتصر في هذه اللعبة بقيمة تريليونات.

*ساهم أيضًا جين لو في ترجمة هذا المقال.

هذا المقال من حساب WeChat "Tencent Technology"، الكاتب: لي هيلين، المحرر: شو تشينغ يانغ