يُظهر DeepSeek V4 أداءً مستقرًا على شرائح الذكاء الاصطناعي المحلية

المقال | معمل النماذج العالمية

ديب سيك V4، أعادت مرة أخرى إثارة جميع أنحاء الصين.

حجم المعلمة، طول السياق، درجة المرجع... تم مقارنة هذه المؤشرات التقنية مرارًا وتكرارًا في التقارير المختلفة.

لكن إذا اقتصرت فقط على البيانات السطحية، فستفوت جوهر الإصدار الأكثر استراتيجية.

على مدار السنوات الثلاث الماضية، ظل النموذج الكبير الصيني عالقًا في واقع محرج: التدريب يعتمد على نيفيديا، والاستدلال يعتمد أيضًا على نيفيديا، بينما تعتبر الرقائق المحلية خيارًا احتياطيًا فقط.

عندما تتوقف نفيديا عن التوريد، سيشعر جميع مجتمع النماذج الصينية بالقلق.

لكن اليوم، أثبت DeepSeek V4 قوته:

نموذج لغوي ضخم بحجم تريليون معلمة، ويمكن تشغيله بثبات وكفاءة على البنية التحتية الحاسوبية المحلية.

معنى هذا الأمر تجاوز مؤشرات التقنية للنموذج نفسها.

الانفراج المحلي

لفهم صعوبة تكييف هذا التحول المحلي، يجب أولاً فهم إمبراطورية شرائح نيفيديا.

إن نفيديا لا تمتلك فقط الرقائق، بل أيضًا نظامًا بيئيًا مغلقًا بالكامل:

من الناحية hardware، هناك عائلة شرائح GPU، بالإضافة إلى NVLink وNVSwitch لتكوين شبكة عالية السرعة بين الشرائح؛

في البرنامج، تعتبر CUDA نظام تشغيل ذكاء اصطناعي تم تطويره بعناية من قبل نيفيديا على مدار عقد ونصف.

إنه مثل مصنع عالي التحسين، حيث تم تخصيص كامل السلسلة، بدءًا من العوامل الأساسية (الوحدات الأساسية لحساب النموذج) وحتى الحساب المتوازي وإدارة الذاكرة والاتصال الموزع، لتناسب وحدات معالجة الرسومات NVIDIA.

بمعنى آخر، لا تبيع نيفيديا المحركات فقط، بل قامت أيضًا بإصلاح الطريق ومحطات الوقود وورش الإصلاح ونظام الملاحة.

تقريبًا جميع النماذج الكبرى العالمية تنمو على هذا النظام البيئي.

الانتقال إلى قوة الحوسبة المحلية يواجه ظروفًا مختلفة تمامًا.

تختلف البنية التحتية للعتاد، وطرق الاتصال، ونضج طبقة البرمجيات، كما لا تزال بيئة الأدوات تسعى بسرعة للحاق بالركب.

يريد DeepSeek تكييف الرقائق الصينية المحلية، وهذا ليس مجرد تغيير بسيط للمحرك، بل هو تحويل سيارة سباق تسير بسرعة عالية على طريق سريع إلى طريق جبلي لا يزال قيد الإنشاء.

إذا لم تكن حذرًا قليلاً، فقد تحدث اهتزازات أو توقف مفاجئ، أو حتى عدم قدرة السيارة بأكملها على التحرك للأمام.

هذه المرة، لم يختر DeepSeek V4 مواصلة التحسين عبر مسار CUDA فقط، بل بدأ التكيف مع سلسلة طبقات البرمجيات للحوسبة المحلية.

من المعلومات العامة، حقق V4 اختراقًا على أساس رقائق الاستدلال المحلية، مع تكييف عميق لرقاقة Huawei Ascend 950، كما تم تشغيله بثبات من قبل Cambricon في يوم إصدار النموذج، مما يحقق التكييف الفعلي من اليوم الأول.

هذا يعني أن النماذج الرائدة بدأت تمتلك إمكانية التطبيق داخل نظام الرقائق المحلية.

كيف فعل DeepSeek V4 ذلك؟

الخطوة الأولى، تحدث على مستوى بنية النموذج.

لم تختار V4 أن تجعل الرقائق المحلية تتحمل سياق 1M، بل أولت اهتمامًا أوليًا لجعل النموذج نفسه أكثر كفاءة.

أبرز التصاميم في التقرير الفني الرسمي هي آلية الانتباه المختلطة CSA + HCA، وضغط KV Cache وغيرها من تحسينات السياق الطويل.

ببساطة، الاستدلال التقليدي الطويل السياق يُجبر النموذج على فتح ومراجعة مكتبة كاملة في كل مرة يجيب فيها على سؤال، مما يستهلك ذاكرة العرض وعرض النطاق الترددي والقدرة الحسابية بسرعة.

إن أسلوب V4 هو إعادة فهرسة وضغط وتصفية المواد من المكتبة أولاً، ثم إرسال المعلومات الأكثر أهمية فقط إلى سلسلة الحساب.

بهذه الطريقة، لم يعد السياق 1M يعتمد بالكامل على القوة الصلبة للعتاد، بل يُقلل أولاً حجم حسابات المعالجة وذاكرة العرض من خلال الخوارزميات.

This is crucial for domestic chips.

إذا ظل النموذج يعتمد بشكل كبير على عرض نطاق ذاكرة العرض ومكتبات CUDA الناضجة، فحتى لو استطاعت الرقائق المحلية تشغيله، فمن الصعب أن تفعل ذلك بتكلفة منخفضة أو بثبات.

V4 يقلل أولاً عبء الاستدلال، وهو في جوهره يخفف الضغط عن قدرات الحوسبة المحلية.

الخطوة الثانية، تحدث في طبقة بنية MoE وطبقة معلمات التنشيط.

على الرغم من أن إجمالي معلمات V4-Pro يصل إلى 1.6 تريليون، إلا أن كل استدلال ينشط حوالي 49 مليار معلمة؛ بينما إجمالي معلمات V4-Flash هو 284 مليار، ويُنشط كل استدلال حوالي 13 مليار معلمة.

هذا يعني أنه لا يستخرج جميع المعلمات لحسابها في كل استدعاء، بل يشبه فريقًا كبيرًا من الخبراء، حيث يتم استدعاء الخبراء ذوي الصلة فقط عند وصول المهمة.

هذا مهم أيضًا للرقائق المحلية.

إنها تقلل من الضغط الحسابي الذي يجب تحمله في كل استدلال، كما تجعل سيناريوهات السياق الطويل والوكيل أسهل في الاستيعاب من بطاقات الاستدلال.

الخطوة الثالثة هي تكييف الطبقات الخاصة بالعوامل والـ Kernel.

أقوى نقطة في بيئة CUDA هي أن العديد من الحسابات الأساسية تم تحسينها من قبل NVIDIA، مما يسمح بالاستدعاء المباشر للعديد من عمليات الحوسبة عالية الأداء.

إن أهمية V4 تكمن في أنها تستخرج بعض الحسابات الأساسية من الصندوق الأسود لـ NVIDIA وتحولها إلى مسارات حسابية مخصصة أكثر قابلية للنقل والتكيف.

ببساطة، V4 يشبه فتح أجزاء المحرك الأكثر أهمية، مما يسمح لشركات مثل هواوي كونتيينغ ومينغشينغ بضبطها وفقًا لهياكل شرائحها الخاصة.

الخطوة الرابعة هي إطار الاستدلال وطبقة الخدمة.

إذا توقف تكييف الرقائق المحلية فقط عند "تشغيل نموذج تجريبي"، فإن الأهمية الصناعية ستكون محدودة. ما يستحق الاهتمام حقًا هو قدرته على الدخول إلى نظام خدمات قابل للتشغيل وقابل للحساب.

وفقًا للاختبارات الداخلية، حقق V4 تحسنًا ملحوظًا في سرعة الاستدلال على Ascend 950PR مقارنة بالإصدارات السابقة، مع انخفاض ملحوظ في استهلاك الطاقة، حيث تجاوزت أداء البطاقة الواحدة في سيناريوهات دقة منخفضة معينة ضعفي أداء NVIDIA H20 المخصص.

أشار DeepSeek رسميًا إلى أن V4-Pro حاليًا محدود من حيث قدرات الحوسبة الفائقة، مما يحد من سعة الخدمة، ومن المتوقع أن ينخفض السعر بشكل كبير بعد إطلاق كميات كبيرة من عقدة Ascend 950 الفائقة في النصف الثاني من العام.

هذا يشير إلى أن سعة التخزين وتكلفة الفعالية لـ V4 ستُحسّنان أكثر مع الإنتاج الضخم للعتاد المحلي مثل Ascend.

لكن стоит ملاحظة أن V4 لم يستبدل بالكامل وحدات معالجة الرسومات من نيفيديا وCUDA. قد لا تزال تدريب النماذج يعتمد على نيفيديا، لكن الاستنتاج يمكنه التحول تدريجيًا إلى التكنولوجيا المحلية.

هذا في الواقع مسار تجاري واقعي جدًا.

التدريب هو استثمار تدريجي، يتم التدريب مرة واحدة، والضبط مرة واحدة، والتحديث مرة واحدة. الاستنتاج هو تكلفة مستمرة، حيث يتم استدعاء الملايين أو المليارات من المستخدمين يوميًا، وكل استدعاء يتطلب قوة حوسبة.

البند الأكبر الذي تُنفق عليه شركات النماذج هو التكلفة الحقيقية، وستزداد التركيز على الاستدلال على المدى الطويل. من يستطيع تلبية طلبات الاستدلال بسعر أرخص وأكثر استقرارًا، سيحصل على ميزة حقيقية في التطبيقات الصناعية.

لأول مرة، يوفر DeepSeek V4 مسارًا لنشر نماذج الصين المتقدمة دون الافتراض الافتراضي لـ NVIDIA CUDA.

This step is already substantial enough.

تأثير V4 على التطبيقات الصناعية

إذا كانت ملاءمة الرقائق المحلية تجيب على سؤال ما إذا كان يمكن تشغيلها، فإن السعر يجيب على سؤال آخر أكثر واقعية:

Can businesses afford it?

كان أقوى ما يميز DeepSeek في الماضي هو قدرته على تقليل قدرات النموذج القريب من الحدود إلى سعر منخفض جدًا.

هكذا كان في عصر V3 و R1، وهكذا هو في V4.

الفرق هو أنه هذه المرة، لا يخوض معركة أسعار في نافذة سياق عادية، بل يستمر في خفض الأسعار ضمن سياق 1M بالإضافة إلى قدرات الوكيل.

وفقًا للسعر الرسمي لـ DeepSeek:

يبلغ سعر الإدخال لـ V4-Flash عند تحقيق ذاكرة التخزين المؤقت 0.2 يوان لكل مليون وحدة، وعند عدم تحقيق ذاكرة التخزين المؤقت 1 يوان لكل مليون وحدة، وسعر الإخراج 2 يوان لكل مليون وحدة؛

يبلغ سعر إدخال التخزين المؤقت للـ V4-Pro 1 يوان لكل مليون رمز، وإدخال عدم التخزين المؤقت 12 يوانًا لكل مليون رمز، بينما يبلغ سعر الإخراج 24 يوانًا لكل مليون رمز.

ضعه في سياق النماذج المحلية المماثلة لملاحظته:

بالمقارنة مع阿里Qwen3.6-Plus في فئة 256K-1M، فإن سعر إخراج V4-Pro يقارب نصفه، بينما يكون سعر V4-Flash أقل.

مقارنةً بسلسلة Xiaomi MiMo Pro في فئة 256K-1M، فإن V4-Flash وV4-Pro أرخص بشكل واضح.

سياق Kimi K2.6 هو 256K، وعلى النقيض من ذلك، فإن سياق V4-Pro أطول وأقل تكلفة؛ بينما يخفض V4-Flash تكلفة الاستخدام المتكرر إلى مستوى آخر بالكامل.

This has tremendous significance for enterprise applications.

بسبب سياق 1M، يعني ذلك أن النموذج يمكنه قراءة مستودع الكود بالكامل دفعة واحدة، أو حزمة العقود السميكة، أو ملفات الإصدار التي تضم مئات الصفحات، أو محاضر الاجتماعات الطويلة، أو الحالة التاريخية التي تتراكم أثناء تنفيذ وكيل للمهام بشكل متسلسل.

في الماضي، علقت العديد من تطبيقات الشركات هنا: إما أن قدرات النموذج كافية لكن السياق غير كافٍ؛ أو أن السياق كافٍ لكن السعر مرتفع جدًا؛ أو أن السعر مقبول لكن قدرات النموذج غير مستقرة.

على سبيل المثال، تقوم شركة بإنشاء عامل بحث واستثمار ليقوم النموذج بقراءة التقارير السنوية للشركة، واجتماعات المكالمات المالية، وتقارير الصناعة، وأخبار المنافسين، والمحاضر الداخلية.

عندما يكون السياق فقط 128K أو 256K، غالبًا ما يضطر النظام إلى تقسيم المعلومات بشكل متكرر، واسترجاعها، وتلخيصها، مما يؤدي إلى فقدان المعلومات أثناء الضغط المتكرر.

يمكن للسياق 1M أن يسمح للنموذج بالاحتفاظ بمزيد من المواد الأصلية، وتقليل التفويت والقطع.

مثلًا، عامل الكود.

إنه ليس مجرد كتابة بضعة أسطر من الكود دفعة واحدة، بل يتطلب قراءة المستودع، وفهم التبعيات، وتعديل الملفات، وتشغيل الاختبارات، وإصلاح الأخطاء بناءً على الأخطاء المُبلّغ عنها. هذه العملية ستستهلك tokens مرارًا وتكرارًا.

إذا كانت كل خطوة مكلفة، فسيقتصر الوكيل على العروض التوضيحية، لكن إذا كانت الرموز كافية وبأسعار منخفضة، فسيكون قادرًا على الدخول في عملية البحث والتطوير الحقيقية.

هذا أيضًا قيمة الصناعة لـ V4.

قد لا يكون أقوى نموذج، لكنه قد يصبح النموذج الأكثر استخدامًا من قبل الشركات.

جعل DeepSeek مرة أخرى الذكاء الاصطناعي أداة إنتاجية يمكن نشرها على نطاق واسع في جميع الصناعات، وليس مجرد لعبة حصرية للشركات الكبرى القليلة.

القيمة الحقيقية لـ V4

عندما يصبح السياق 1M بسعر منخفض جدًا يصل إلى خط الإنتاج، تظهر الحقيقة الكاملة لـ DeepSeek V4.

كل هذا مبني على أساس قوة حسابية وطنية لا تزال غير ناضجة.

في مواجهة الفجوة النظامية في نظام الرقائق المحلية، لم يختر فريق DeepSeek الانتظار حتى نضج البيئة قبل الإطلاق.

لقد أخّروا نافذة الإصدار مرارًا وتكرارًا، واستغرقوا أشهرًا في إجراء اختبارات مشتركة معمقة مع شركاء مثل هواوي، وهذه الصعوبة الهندسية تفوق بكثير ما يتخيله الخارج.

لهذا السبب، فإن تحقيق V4 لقدرة استدلال ووكيل تقارب النماذج المغلقة الأعلى تصنيعًا على قوة الحوسبة المحلية يُعد إنجازًا صعبًا بشكل خاص.

أثبت V4 بنفسه أنه حتى في مواجهة الفجوة المرحلة في البيئة Hardware، لا يزال بإمكان الفريق الصيني تحقيق أداء تنافسي من خلال استثمارات هندسية قصوى وابتكار متكامل بين البرنامج والعتاد.

Of course, there is still a gap to full maturity.

تتطلب درجة إكمال سلسلة الأدوات لمنصة Ascend، واستقرار مجموعات الضخامة الفائقة، بالإضافة إلى التحسينات العميقة في مزيد من السيناريوهات الرأسية، جهودًا مشتركة مستمرة من جميع أطراف الصناعة.

لكن نجاح V4 قد وضع مسارًا يمكن الاستفادة منه للنماذج التالية.

إنها تُحقن دفعة قوية للتحكم الذاتي في سلسلة توريد الذكاء الاصطناعي بأكملها.

في ظل بيئة خارجية مليئة بعدم اليقين، فإن هذا التحمل الذي يحقق اختراقًا رغم القيود، يستحق احترامًا أكثر من المؤشرات البارامترية البسيطة.

لا تُجذب بالثناء، ولا تخاف من الانتقاد، بل اسلك الطريق الصحيح وكن مُستقيمًا في تصرفاتك.

هذه الجملة من DeepSeek الرسمية، وهي أفضل تفسير لها.