إنجاز صيني في الذكاء الاصطناعي: تم تدريب نموذج DeepSeek بـ 1.6 تريليون معلمة بالكامل على وحدة Ascend 910C المحلية

ME AI رسالة، وفقًا لمراقبة Beating، تم تطويرها من قبل فريق مشترك يتكون من جامعة هاربين للعلوم والتكنولوجيا (شنتشن)، ومعهد شنتشن للبيانات الكبيرة، وفريق مرتبط بـ Huawei، بالتعاون مع فريق البحث المشترك لمنصة حسابات الذكاء الاصطناعي Shenzhen Intelligence City، وأعلنت عن نجاحها في تشغيل تدريب كامل المعاملات (Post-training) لنموذج DeepSeek-V4-Pro بحجم 1.6 تريليون معلمة على منصة حسابات الذكاء الاصطناعي المحلية. هذه هي المرة الأولى التي تُكمل فيها جهة خارجية عالمية تدريبًا كامل المعاملات لنموذج بحجم 1.6 تريليون معلمة على منصة حسابات محلية. مقارنةً بالتدريب المسبق (Pre-training) من الصفر، يركز مرحلة التدريب اللاحق (التي تشمل بشكل رئيسي الضبط الخاضع للإشراف SFT والتعلم المعزز RL) على تعليم النموذج اتباع التعليمات وتنفيذ مهام محددة من خلال تعليمات عالية الجودة وتوافق التفضيلات البشرية. ومع ذلك، فإن التدريب الكامل للمعلمات لنموذج MoE بحجم 1.6 تريليون معلمة لا يزال يتطلب متطلبات صارمة جدًا على سعة ذاكرة GPU الأساسية، وعرض النطاق الترددي للتواصل بين بطاقات متعددة (مثل الاتصال الكامل بين كل زوج من البطاقات الذي يُحفزه توجيه MoE)، واستقرار المجموعة الكبيرة. اعتمد فريق البحث المشترك على مجموعة حسابية من Huawei Ascend 910C تضم أكثر من ألف شريحة، ونجح في التغلب على عوائق الاتصال من خلال تحسين استراتيجيات التحميل الموزع والتوازن في الأحمال. خلال أكثر من 1500 خطوة تدريب، لم يحدث أي انقطاع في النظام، وتجاوز استخدام قدرة الحوسبة للموديل (MFU) 30٪، وتحسّنت كفاءة العوامل الحاسوبية الرئيسية بنسبة 14٪، ووصلت جميع المؤشرات إلى معايير التشغيل الصناعي. أشار التحليل الصناعي إلى أن نجاح مجموعة Huawei Ascend 910C في تشغيل تدريب النماذج بحجم تريليونات المعلمات يؤكد الجدوى التقنية للرقائق المحلية للذكاء الاصطناعي في تحمل مهام التدريب العميق للنماذج الضخمة جدًا. نظرًا لأن التدريب المسبق الأساسي لتطوير النماذج الكبيرة كان يعتمد سابقًا على مجموعات GPU من NVIDIA، كانت الحوسبة المحلية تُستخدم بشكل رئيسي للمهام الاستنتاجية (Inference) أو الضبط الدقيق للمعلمات الصغيرة. يمثل نجاح هذا التعاون المشترك علامة فارقة في انتقال نظام الحوسبة المحلية من "الدعم فقط للاستنتاج" إلى "القدرة على تحمل التدريب الكامل للمعلمات للنماذج الضخمة جدًا". (المصدر: MLion)