شريحة Cerebras المبنية على وفرة Wafer-Scale للذكاء الاصطناعي تكسر جدار الذاكرة في عصر الاستنتاج

في عام 2026، شهد تطور الذكاء الاصطناعي العالمي نقطة تحول مميزة — حيث تجاوزت النفقات الرأسمالية للشركات السحابية الضخمة في الاستنتاج، لأول مرة في التاريخ، النفقات الرأسمالية في التدريب. انتقل مركز الصناعة من "تدريب النماذج الكبيرة" إلى "استخدام النماذج الكبيرة"، وتغير هيكل طلب الحوسبة بشكل جذري.

في عصر التدريب، كان التناقض الأساسي في الحوسبة هو "الدقة المزدوجة العائمة وحجم التجمعات"؛ بينما في عصر الاستنتاج، أصبح التناقض الأساسي هو "عرض نطاق الذاكرة وتلكؤ الاتصال".

لا تكمن عقبة استدلال النماذج الكبيرة في الحساب فقط، بل في نقل البيانات — حيث تتطلب أوزان النموذج وقيم التنشيط الوسيطة وKV Cache تبادلًا متكررًا بين DRAM خارج الرقاقة (مثل HBM) ووحدة معالجة الرسوميات، وكلما زاد حجم النموذج، زادت الطاقة والتأخير الناتجين عن نقل البيانات، حتى تفوق في النهاية استهلاك الطاقة الخاص بالحساب نفسه، مما يخلق جدار الذاكرة.

بفضل CUDA وNVLink، بنت نفيديا حصناً قوياً لوحدات معالجة الرسوميات الخاصة بها، لكنها لا تزال غير قادرة على تجنب توقف وحدات معالجة الرسوميات الناتج عن حدود عرض النطاق الترددي.

قامت شركة الذكاء الاصطناعي الصينية Zhipu بتجربة بسيطة جدًا: مجموعة استدلال مكونة من 512 وحدة معالجة رسومية، مع الحفاظ على وحدات المعالجة الرسومية والنماذج والكود دون تغيير، وتم فقط رفع حد عرض النطاق الترددي للشبكة من 200 غيغابايت/ثانية إلى 400 غيغابايت/ثانية، فارتفع إنتاج الاستدلال مباشرة بنسبة 10%، وانخفض زمن تأخر إخراج أول رمز بنسبة 19% — السبب بسيط جدًا: كلما أوسعت الطريق، استطاعت السيارات السير بسرعة أكبر.

ومع ذلك، يبدو أن البنية غير القائمة على GPU، مثل Cerebras، تفتح ثغرة في جدار الذاكرة.

Chip on Wafer

مقارنة بين شريحة Cerebras WSE-3 ووحدة معالجة الرسومات NVIDIA B200

جوهر Cerebras: آلة حساب قريبة من الذاكرة تعتمد على SRAM

تأسست Cerebras Systems من قبل أندرو فيلدمان وآخرين في سيليكون فالي، حيث جاء فريق المؤسسين الأوائل جميعًا من شركة SeaMicro المتخصصة في الخوادم الدقيقة منخفضة الاستهلاك، والتي تم شراؤها لاحقًا من قبل AMD، ثم:

في عام 2015، حدد الفريق المؤسس مسار "الحوسبة على مستوى الشريحة".

في عام 2016، أُكمل التسجيل ومرحلة التمويل من السلسلة A، ودخل مرحلة التطوير السرية؛

في عام 2019، تم إطلاق أول منتج، شريحة WSE-1 ونظام CS-1، المبني على تقنية TSMC 16nm؛

في عام 2021، تم إصدار المنتج الجيل الثاني المبني على عملية 7 نانومتر من TSMC؛

In 2024, the third-generation product (WSE-3 / CS-3) was released, built on TSMC's 5nm process, with both the chip and system manufactured entirely in the United States, making it a genuinely pure American-made chip system.

Chip on Wafer

تكوين نظام CS-3، يحتوي على شريحة WSE-3 واحدة

فلسفة بنية محرك وافر الحجم (Wafer-Scale Engine, WSE) من Cerebras بسيطة وصريحة لكنها تلامس جوهر المشكلة: استخدام التوسيع القصوي للمساحة الفيزيائية لتحقيق ضغط قصوي لتأخير نقل البيانات.

الرقائق العادية تُقطّع من شريحة بلورة إلى العديد من الرقائق الصغيرة، مثل وحدات معالجة الرسومات من نيفيديا التي تتبع هذا النهج. أما سيريباس فتقوم بالعكس: لا تُقطّع، بل تُصنع شريحة ضخمة واحدة تقريبًا من الشريحة الكاملة، تُسمى Wafer-Scale Engine، WSE.

تُصنع الرقائق التقليدية عن طريق قطع شريحة واحدة بقطر 300 مم إلى مئات الرقائق الصغيرة؛ بينما اختار Cerebras الاحتفاظ بالشريحة بأكملها كرقاقة واحدة. تحتوي أحدث وحدة WSE-3 على تريليوني ترانزستور و900 ألف نواة ذكاء اصطناعي، وكل نواة مزودة بـ 48 كيلوبايت من ذاكرة SRAM المحلية، مما يوفر إجماليًا قدره 44 جيجابايت من ذاكرة SRAM على الرقاقة، مع عرض نطاق ذاكرة على الرقاقة يبلغ 21 بيتا بايت/ثانية وعرض نطاق شبكة يبلغ 214 بيتا بايت/ثانية، وهو ما يزيد بألفات المرات عن عرض نطاق HBM التقليدي.

Chip on Wafer

عرض النطاق الترددي للذاكرة في Cerebras WSE هو 2625 ضعف عرض النطاق الترددي للذاكرة في شريحة NVIDIA B200 المُغلفة، مما يكسر حواجز عرض النطاق الترددي للذاكرة في سيناريوهات استنتاج النماذج الكبيرة.

في بنية Cerebras، لا توجد أوزان النموذج أبداً على SRAM، بل تخزن على ذاكرة خارج الرقاقة MemoryX، وتنقل تدريجياً إلى الرقاقة الكبيرة. يتم تحقيق ذلك من خلال فصل تخزين أوزان نموذج الشبكة العصبية عن وحدات الحساب.

يتم تخزين جميع أوزان النموذج خارجيًا في وحدة الذاكرة الموسعة MemoryX، ويتم نقل الأوزان المطلوبة لكل طبقة من الشبكة حسب الحاجة طبقةً تلو الأخرى إلى نظام CS-3. تُخزن الأوزان في DRAM وذاكرة فلاش داخل MEMORY X، وتُنقل إلى نظام CS-3 بسرعة كاملة للنطاق الترددي. لا تُخزن هذه الأوزان داخل نظام CS-3، ولا حتى في ذاكرة التخزين المؤقت المؤقتة، حيث يعتمد نظام CS-3 على آلية تدفق البيانات الأساسية لإنجاز العمليات الحسابية.

يُظهر Cerebras، بفضل بنية وحدة الرقاقة الكاملة، حواجز لا مثيل لها في استنتاج نماذج اللغة الكبيرة المحدودة بعرض النطاق الترددي للذاكرة. أثناء توليد الرموز فردًا، تُنقل الأوزان طبقةً تلو الأخرى من ذاكرة MemoryX الخارجية إلى CS-3، وتصل سرعة الرموز إلى 1.5 إلى 5 أضعاف سرعة NVIDIA B200 عند تشغيل نماذج مختلفة.

Chip on Wafer

مقارنة معدلات التوكن لوحدة معالجة الرسوميات NVIDIA DGX B200 وشريحة Cerebras CS-3 عند تشغيل نماذج كبيرة مختلفة

تكمن ميزته الأساسية في أن ذاكرة SRAM على الشريحة بسعة 44 جيجابايت في CS-3 توفر عرض نطاق فائق بقيمة 21 بيتا بايت/ثانية (2625 مرة أكثر من B200) وربط بسعة 214 بيتا بايت/ثانية، مما يحرر نقل الأوزان من قيود واجهة HBM. وبالتالي، فإن الأداء يكون متميزًا بشكل خاص في TTFT (الوقت إلى أول رمز، وهو الوقت من إرسال الطلب حتى استرجاع أول رمز من النموذج)، والسياقات الطويلة، وأحمال عمل الوكلاء.

على الرغم من أن الأوزان خارجية وتحمّل طبقةً تلو الأخرى حسب الطلب في MemoryX ولا تُخزّن في الذاكرة المؤقتة على الرقاقة، فإن CS-3 تعتمد على آلية تدفق البيانات الأساسية لإكمال عمليات كاملة بدقة FP16 دون فقدان في SRAM؛ وبفضل التوسع الخطي في الأداء، فإنها تُطلق إجماليًا عاليًا جدًا أثناء الاستنتاج المتزامن من قبل مستخدمين متعددين.

بالإضافة إلى ميزة النطاق الترددي، هناك ميزة في استهلاك الطاقة. كما أشار كيو شينغ، رئيس مجلس إدارة ZHONGJI XUANGCHUANG، في خطابه الأخير، فإن متطلبات العملاء لوحدات الضوئية هي 1 pJ/bit، بينما الحالة الحالية هي 10 pJ/bit. في شريحة Cerebras، فإن استهلاك الطاقة للربط هو فقط 0.15 pJ/bit، بينما استهلاك الطاقة للربط في وحدات معالجة الرسومات الحالية هو 10 pJ/bit.

Chip on Wafer

مقارنة عرض النطاق الترددي واستهلاك الطاقة بين بنية اتصال Cerebras وبنية اتصال GPU

من هنا، يمكن رؤية أنه إذا أصبحت بنية رقاقة واسعة النطاق على رقاقة واحدة من Cerebras سائدة في الاستنتاجات والتدريبات الخاصة بالذكاء الاصطناعي، فقد تؤدي إلى تقليل ملحوظ وتغيير هيكلية في كميات الشحن الخاصة بوحدات الضوئية التقليدية وCPO (البصريات المدمجة مع الرقاقة). المنطق الأساسي هو أن الطلب العالي على وحدات الضوئية وCPO يهدف أساسًا إلى حل ضيق نطاق الاتصال بين الرقائق وفيما بين العقد في مجموعات GPU؛ بينما تحل بنية Cerebras هذه المشكلة من خلال "إلغاء الاتصال الموزع".

غير بديهي: العيوب الصلبة "الحقيقية والزائفة" في الرقائق الكبيرة على مستوى الشريحة

يظل جوهر الرقاقة في التوازن (Trade Off). لقد أدى تحسين Cerebras لعرض النطاق الترددي لـ SRAM على الرقاقة إلى بعض المشكلات.

انخفاض معدل الإنتاجية؟

على العكس تمامًا، تم تقليل حجم كل نواة ذكاء اصطناعي إلى 0.05 مليمتر مربع (1٪ من حجم نواة الحساب الواحدة في H100)، مما يؤدي إلى زيادة معدل الإنتاج. من خلال التوجيه على الرقاقة، يمكن إيقاف أو تجاوز النوى المعيبة، مما يزيد من تحمل العيوب بمقدار 100 مرة مقارنة بالمعالجات متعددة النوى التقليدية. في الواقع، تحتوي الرقاقة بأكملها على مليون نواة ذكاء اصطناعي، لكنها أعلنت عن 900 ألف نواة ذكاء اصطناعي بعد أخذ معدل الإنتاج في الاعتبار.

جيد في الاستدلال، لكن ليس جيدًا في التدريب؟

في السنوات القليلة التالية لتأسيس Cerebras، كان التدريب هو الموضوع الرئيسي، لذا ركزت الشركة على التدريب بشكل كبير، ولكن بعد ارتفاع الطلب على الاستنتاج، اكتشف الجميع أن ميزاتها في الاستنتاج أكثر وضوحًا.

في الواقع، فإن الحساب الموزع المبسط يجلب أيضًا مزايا متعددة، مثل تقليل تعقيد الكود وتقليل تكاليف الاتصال.

تدريب نموذج بـ 175 مليار معلمة على 4000 وحدة معالجة رسومية يتطلب عادةً حوالي 20 ألف سطر من كود التدريب الموزع.

حقق Cerebras تدريباً مكافئاً لـ 565 سطرًا من الكود — يمكن تثبيت النموذج بالكامل على الشريحة دون الحاجة إلى التعامل مع تعقيدات التوازي في البيانات.

تم وفاة تكبير SRAM، وواجه الميزة الأساسية سقفًا فيزيائيًا.

يعتمد المنتج الجيل الثالث على تايوان سيميكوندكتور 5 نانومتر، حيث زادت سعة SRAM بنسبة 10% فقط مقارنة بالجيل الثاني القائم على تايوان سيميكوندكتور 7 نانومتر، وبعد 5 نانومتر، لم يعد مساحة خلية SRAM تقل بشكل ملحوظ مع تقدم التصنيع.

هذا يعني أن Cerebras لا يمكنها الآن، كما كانت تفعل في الماضي، زيادة ميزتها الأساسية (سعة SRAM) من خلال ترقية عملية TSMC (مثل الانتقال من 5 نانومتر إلى 3 نانومتر).

بسبب قيود حجم الشريحة وقدرة التبريد وتكاليف التصنيع، يصعب توسيع موارد التخزين مثل SRAM على الشريحة بشكل خطي متزامن مع وحدات الحساب، مما يواجه حواجز في توزيع الموارد. وهذا ي nearly يسد طريق تطورها.

Chip on Wafer

مواصفات تقنية منتجات Cerebras الجيل الثالث

معمل ثلاثي للحرارة، والتصنيع، والبيئة.

تتولد حرارة مركزة على كامل الرقاقة، مع كثافة تدفق حراري عالية، مما يتطلب الاعتماد على مراكز بيانات مخصصة وأنظمة تبريد سائلية خاصة. بالإضافة إلى ذلك، فإن قابلية التوافق البيئية تعني أن العملاء يجب أن يتكيفوا مع طبقات البرمجيات المخصصة الخاصة بها، حيث تمتلك توافقًا ضعيفًا مع إطارات البرمجة العامة الحالية مثل CUDA، مما يؤدي إلى تكاليف مرتفعة لنقل وتكيف البرمجيات.

انخفاض عرض النطاق الترددي الخارجي يُحوّله إلى "جزيرة معزولة".

بسبب قيود التصميم الفيزيائي على مستوى الشريحة، فإن عدد دبابيس I/O التي يمكن استخراجها من حافة WSE محدود جدًا، مما يؤدي إلى عرض نطاق I/O بقيمة 150 غيغابايت/ثانية فقط. مقارنةً بعرض النطاق الثنائي البالغ 1.8 تيرابايت/ثانية الذي تقدمه NVLink من NVIDIA، فإن هذا يشبه السلحفاة. وهذا يعني أن WSE يواجه صعوبة كبيرة في التوسع الخارجي عالي السرعة. على الرغم من أن اتصال SwarmX من Cerebras يؤدي أداءً جيدًا في تجميع الأنظمة المتعددة، فإن عرض النطاق الخارجي المنخفض جدًا يصبح قيدًا فيزيائيًا بنيويًا أمام النماذج الضخمة التي تتطلب اتصالًا عالي السرعة بين الرقائق المتعددة.

صراع المسار: كم من الوقت يتبقى للفتحة الزمنية لـ Cerebras؟

طرق الشركات الكبرى لحل مشكلة "الاستدلال يتطلب عرض نطاق ترددي أعلى وتأخير أقل" لا تقتصر على مسار واحد فقط هو وافر-سكال، بل إنها تشن هجومًا على الميزة التقنية للشركات الناشئة من خلال ثلاثة مسارات متوازية.

① شريحة ASIC مطورة داخليًا

لقد انقسم Google TPU v8 إلى نسختين: واحدة مخصصة للتدريب وأخرى مخصصة للاستنتاج؛ AWS Trainium 4 قادمة؛ Microsoft Maia تُستخدم بالفعل داخل Azure، وتم بناؤها باستخدام تقنية TSMC 3nm، وتحتوي على نوى تنسور FP8/FP4 أصلية، ونظام ذاكرة مُعاد تصميمه، ومزودة بـ 216 جيجابايت من HBM3e و272 ميجابايت من SRAM على الرقاقة؛ حتى أن Anthropic بدأت تقييم رقاقة استنتاج مصممة داخليًا.

احتمال هذه المسار مرتفع جدًا، وسيؤدي مباشرة إلى "شراء الاستنتاجات من طرف ثالث" في سوق TAM الكلي لعام 2028، مع ضغط الحد الأعلى بنسبة 10% إلى 25%.

② تعميم عملية خط التغليف القياسي

هذا هو أقوى ضربة تقليل بعد لـ Cerebras.

تم فتح SoW (System-on-Wafer) من TSMC على نطاق واسع للعملاء، وسيتم إطلاق interposer CoWoS 9.5x في عام 2027.

ما يفعله هذان المنتجان — دمج عدة die على مستوى wafer — هو في جوهره تعميم وتوسيع تقنية Cerebras الفيزيائية.

ستدخل فيرا روبين التابعة لنيفيديا إلى هذا النظام البيئي في النصف الثاني من عام 2026.

رغم أن تقنية cross-reticle stitching التي طورتها Cerebras حصرية، إلا أن فترة الحصرية لا تتجاوز 2 إلى 3 سنوات، وبعد عامي 2027-2028، سيتم تخفيف حواجز التصنيع هذه من قبل تغليف TSMC المتقدم.

③ اختراق الاتصالات الضوئية / الحوسبة الضوئية

وصلت توصيلات الرقائق الإلكترونية وحاجز الذاكرة إلى حدودها القصوى، والفوتو닉س بعرض نطاقه الترددي العالي وتأخيره المنخفض وصفر التداخل هو الحل النهائي.

المسار البصري الذي تمثله لومينتوم يشهد صعودًا. إن أكبر ميزة لتقنية ويفير-سكال هي الحساب على الشريحة، لكن النماذج ستزداد حجمًا بالضرورة، وبالتالي فإن الاتصال عالي السرعة فوق ويفير-سكال أصبح ضرورة ملحة.

مع نضج تقنيات CPO (الضوئية المُعبأة مشتركًا) وربطات الضوئية، من المحتمل جدًا أن نرى إدخال واجهات ضوئية مباشرة إلى شرائح WSE، مما يكسر قيود الربط الكهربائي؛ كما يمكن لـ NVIDIA أيضًا شراء شركات LPU (مثل Groq) التي تتمتع بميزات هندسية محددة، ودمج الربط الضوئي لتطوير أنظمة على مستوى الشريحة متوافقة مع برمجيات NV SuperNode الحالية.

الركض على حافة الهاوية: أعمال وتسليم Cerebras

Cerebras تواجه حاليًا سباقًا حادًا مُدفعًا بواسطة أوامر ضخمة.

التعامل مع عملاء كبار مثل OpenAI أجبر Cerebras على التحول من شركة رقائق إلى مزود سحابي جديد. لم يعد يبيع فقط الأجهزة، بل يحتاج إلى تأمين وبناء بنية تحتية هائلة من الطاقة والمرافق لمراكز البيانات في فترة قصيرة.

وفقًا لشروط العقد، يجب على Cerebras تسليم 250 ميغاواط من سعة مركز البيانات سنويًا بين عامي 2026 و2028. ومع ذلك، فإن أنظمة الرقاقة الكاملة تتطلب متطلبات صارمة للغرف، ولا يمكن تثبيتها مباشرة في مراكز البيانات التقليدية المبردة بالهواء. حاليًا، تأخرت Cerebras بشكل واضح في إعداد سعة مركز البيانات مقارنة بالمتطلبات المحددة في العقد.

من التصنيع إلى إنشاء المصنع، ومن موافقات الكهرباء إلى نشر نظام التبريد، إنه مستنقع يتطلب أصولًا ثقيلة ودورات طويلة.

الخاتمة: إلى اليسار أم إلى اليمين؟

بالعودة إلى الفرضية الأصلية، عندما يصل نقطة التحول في قوة التفكير، فإن جوهر بنية القوة يكمن دائمًا في الاختيار.

لا يوجد صواب أو خطأ مطلق، بل فقط حلول نسبية مثلى تحت أقصى حمل. الحمل قد تغير بالفعل.

تختار Cerebras اليسار، مع التركيز على التحسين الفيزيائي المطلق، حيث تستخدم شريحة كاملة وكمية هائلة من SRAM للحصول على تأخير منخفض جدًا في المهمة الواحدة، وهو ما يجعلها لا تُهزم في السيناريوهات الحساسة جدًا لتأخير أول رمز.

نفيديا تميل إلى اليمين، وتختار الحفاظ على الشمولية باستخدام HBM + NVLink + سعة نقل ضخمة للعناقيد، للتعامل مع تقلبات الأحمال بثبات.

تتقلب الأمور بسرعة، والمستقبل غير مؤكد. إن هذا التردد المزدوج بين التكنولوجيا والتجارة هو ما يخلق إمكانية التحول الجذري. في تيار الحوسبة المتجه نحو الذكاء العام الاصطناعي، لا يزال من المبكر جدًا إصدار أحكام نهائية — فبسبب عدم اليقين، توجد فرص.

هذا المقال من حساب WeChat "مختبر قطع الثوم"، المؤلف: بيرلي يوكسيا