ارتفع سهم Zhipu AI بنسبة 26% بعد إطلاق واجهة برمجة التطبيقات بقدرة 400 رمزًا/ثانية

文 | AIDeepDive

اليوم، ارتفع سعر "أول شركة عالمية في نماذج كبيرة" Zhipu (02513.HK) مرة أخرى بشكل حاد.

ارتفع السعر خلال التداولات بنسبة تجاوزت 30%. أغلق عند 1282 دولارًا هونغ كونغيًا، بزيادة تزيد عن 26% للنهار، ووصلت القيمة السوقية إلى 571.57 مليار دولار هونغ كونغي، مسجلةً مستوى قياسيًا جديدًا مرة أخرى.

النموذج الكبير

ما أثار هذا الارتفاع هو مؤشر تقني محدد: 400 tokens/s.

في 22 مايو، أطلقت ZhiPu رسميًا واجهة برمجة تطبيقات GLM-5.1 High-Speed (GLM-5.1-highspeed) للعملاء المؤسسيين، وأهم معلمة أساسية واحدة: سرعة إخراج النموذج تصل إلى 400 رمز في الثانية، مما يكسر حدود السرعة العالمية لواجهات برمجة تطبيقات مزودي النماذج الكبيرة.

كنت أعتقد أن هذا مجرد تغطية إعلامية لنموذج لغوي محلي، لكن بعد مراجعة التفاصيل التقنية بدقة، فهمت أخيرًا المنطق وراء الأسواق المالية.

ما المقصود بـ 400 token/s؟

يستطيع النموذج توليد حوالي 200 حرف صيني في الثانية، وهو ما يعادل إنتاجًا مكثفًا لكاتب محترف خلال دقيقة، مضغوطًا في ثانية واحدة.

كمية النص التي يستغرقها مُنشئ عدة أيام للجلوس والكتابة، يمكن لـ GLM-5.1 الإصدار السريع إنجازها في دقيقة واحدة؛ ومهمة إعادة هيكلة النظام التي يستغرقها مهندس ثلاثة أيام لإكمالها، يمكنه إنجازها خلال وقت شرب فنجان قهوة.

01 السرعة، أهم مما تظن

السرعة، وهي دائمًا البعد الأقل اهتمامًا في تنافس نماذج الذكاء الاصطناعي.

على مدار السنوات الثلاث الماضية، ركزت سباق التسلح للنماذج الكبيرة على مسارين: حجم المعلمات (نماذج أكبر وأذكى) وحرب الأسعار (التوكينات أرخص وأكثر شمولية). "السرعة" لم تكن أبدًا البطل الرئيسي.

لأنه في الماضي، كان يتم تحقيق "السرعة" عادةً من خلال تقليل معلمات النموذج. لزيادة السرعة، كان يجب استخدام نماذج أصغر وأكثر تبسيطًا، وذلك على حساب تقليل القدرة.

إن أهمية الإصدار عالي السرعة GLM-5.1 تكمن في أنه يحافظ على قدرات المنصة الأساسية الكاملة من المستوى الرائد، مع رفع السرعة إلى 400 رمزًا/ثانية.

من حيث النماذج المحلية أو من منظور عالمي، تم تحقيق "القدرة الرائدة" و"التأخير المنخفض القصوى" لأول مرة دون تنازل.

النموذج الكبير

لماذا السرعة مهمة جدًا؟ لأن ساحة المعركة الرئيسية للذكاء الاصطناعي تمر بتحول جوهري.

عندما ينتقل الذكاء الاصطناعي من عصر ChatBot إلى عصر Agent، لم تعد الأسئلة والأجوبة المشهد الرئيسي للذكاء الاصطناعي، بل إن Agent لإنجاز مهمة واحدة غالبًا ما يحتاج إلى مئات الجولات من الاستدعاء الذاتي: كتابة الكود، استدعاء واجهات برمجة التطبيقات، البحث عن المعلومات، استدعاء الأدوات...

في هذا النمط من العمل، يتم تراكم وتكبير التأخير بين كل دعوة بشكل لا يرحم. مهمة تتطلب 50 دعوة، إذا وفرت ثانية واحدة في كل دعوة، ستُنهى المهمة أسرع بقرابة دقيقة واحدة. بالنسبة لمساعدي الذكاء الاصطناعي للبرمجة، والتفاعل الصوتي، وأنظمة اتخاذ القرار التجاري، هذا الفرق يمكن أن يكون حاسمًا للبقاء أو الفشل.

من منظور أعمق، فإن الاستدلال الأسرع ضمن ميزانية زمنية ثابتة تعني أن النموذج يمكنه إكمال مسارات استدلال أعمق، وعدد أكبر من جولات التحقق الذاتي. السرعة، تتحول من مؤشر نظام إلى حد ذكي ذاته.

02 كم هو صعب الأمر بالنسبة للسرعة؟

ما هو مستوى السرعة الحالي في الصناعة؟

في بين الشركات الرائدة، يبلغ أداء نموذج GPT-4o من OpenAI حوالي 100–150 رمزًا/ثانية، ونموذج Claude Sonnet من Anthropic حوالي 80–120 رمزًا/ثانية، بينما تقع معظم النماذج الرائدة المحلية في نطاق 50–100 رمزًا/ثانية. إن 400 رمزًا/ثانية تساوي تقريبًا 3 إلى 5 أضعاف المتوسط الصناعي.

الأهم من ذلك، أن هذا الفرق لا يمكن تعويضه ببساطة من خلال استثمار المزيد من قوة الحوسبة.

خادم مزود بثمانية بطاقات رسومية H200، يمكنه نقل ما يصل إلى 38 تيرابايت من البيانات في الثانية نظريًا. بالنسبة لـ GLM-5.1، يتطلب إنشاء رمز واحد قراءة حوالي 42 جيجابايت من معاملات التنشيط، وباستنتاج نظري بحت، يجب أن يقترب من 1000 رمز/ثانية.

لكن الأنظمة الواقعية غالبًا ما تتمكن فقط من معالجة بضعة عشرين رمزًا/ثانية.

النموذج الكبير

هذا فجوة من حيث الحجم. لا تُعد وحدات معالجة الرسوميات بطيئة، بل يتم هدر وقت كبير في الانتظار والدوران الخامل والجدولة غير الفعالة.

ZhiPu قدمت ابتكارًا في نفس الوقت على ثلاثة مستويات: محرك الاستدلال، واستراتيجيات التوازي، وهندسة الشبكة، مما أدى إلى تحقيق قفزة في السرعة النهائية.

النموذج الكبير

03 تراكب تقنيات من ثلاث طبقات، يقترب من الحدود الفيزيائية للعتاد

يعمل النموذج الكبير بهذه الطريقة: يتم تقسيم النموذج الكبير إلى عوامل حسابية مستقلة، حيث يتم تشغيل كل عامل مرة واحدة على نواة حسابية (kernel)، وبعد إكمال الحساب، يتوقف ويُنتظر التزامن، ثم يُشغّل العامل التالي.

في مرحلة التدريب، تستغرق كل عملية حسابية عدة ثوانٍ أو حتى دقائق، لذا يمكن تجاهل تكاليف التشغيل والانتظار تمامًا. لكن أثناء الاستدلال، عندما يتم توليد رمز واحد في كل مرة، قد تستغرق خطوة حاسمة فقط بضع عشرات من الميكروثانية، مما يجعل تكاليف التشغيل والانتظار ذات أهمية نسبية لا يمكن تجاهلها.

الفكرة الأساسية لـ TileRT: تحويل النموذج بالكامل إلى محرك يعمل باستمرار، يُفعّل مرة واحدة ولا يتوقف أبدًا.

يقوم TileRT بتوسيع جميع منطق الحسابات للنموذج مسبقًا كخط أنابيب مستمر أثناء مرحلة ترجمة الكود، بحيث يظل GPU يعمل بسرعة عالية أثناء التشغيل، مع تقدم الحسابات ونقل البيانات والاتصالات بالتوازي، مع الاحتفاظ بنتائج الوسيطة قدر الإمكان في ذاكرة التخزين المؤقت السريعة للـ GPU، دون الحاجة إلى كتابتها مرارًا وتكرارًا في ذاكرة العرض البطيئة ثم إعادة قراءتها.

النموذج الكبير

هناك تفصيل تصميمي أساسي: تخصص Warp.

لفهم Warp، يجب أولاً فهم طريقة عمل GPU. الفرق الأكبر بين GPU وCPU هو أن GPU يحتوي على آلاف الوحدات الحسابية البسيطة نسبياً داخله، وهذه الوحدات مجمعة في مجموعات من 32، وتُسمى كل مجموعة Warp.

يجب أن تعمل وحدات 32 داخل نفس Warp بشكل متزامن دائمًا، وتنفذ نفس التعليمات، تمامًا مثل فرقة في الجيش، حيث يأمر القائد الجميع بالقيام بنفس الحركة في نفس الوقت.

في الإطارات التقليدية، تنفذ جميع ووربز نفس تسلسل التعليمات؛ بينما يسمح TileRT لفرق الووربز المختلفة بتحمل مسؤوليات مختلفة: فريق واحد مخصص لنقل البيانات التالية مسبقًا، وفريق آخر مخصص للحسابات الرياضية، وفريق ثالث مخصص للتواصل مع وحدات المعالجة الرسومية الأخرى. تعمل المجموعات الثلاثة في وقت واحد وبشكل متسلسل، دون انتظار بعضها البعض.

مثل التحول من "عامل واحد ينقل الطوب ويبني الجدار ويفحص المهمة بالتسلسل"، إلى "مجموعات تعمل في وقت واحد: مجموعة نقل الطوب، ومجموعة بناء الجدار، ومجموعة الفحص".

تم حل كفاءة البطاقة الواحدة، لكن التوازي المتعدد للبطاقات يطرح تحديات جديدة.

الممارسة المعيارية في الصناعة هي التوازي التنسوري (Tensor Parallel): تقسيم مصفوفات الأوزان النموذجية إلى أجزاء متعددة، حيث تتحمل كل وحدة GPU جزءًا واحدًا، ثم تُجمَع النتائج عبر اتصال عالي السرعة (NVLink) بعد إكمال الحسابات.

هذه الخطة فعالة جدًا للحوسبة الكثيفة المنتظمة مثل ضرب المصفوفات، وهي الحل القياسي متعدد البطاقات المستخدم في جميع إطارات استنتاج النماذج الكبيرة الحالية.

GLM-5.1 يستخدم **MLA (Multi-head Latent Attention)، وهي آلية انتباه طورتها DeepSeek.

تتطلب آلية الانتباه التقليدية حفظ جميع البيانات الوسيطة الكبيرة الناتجة عن كل خطوة حسابية (KV Cache) لاستخدامها لاحقًا، مما يستهلك كمية كبيرة من ذاكرة GPU؛ أما طريقة MLA فهي تضغط هذه البيانات الوسيطة أولًا إلى "متجه كامن" مضغوط وتحفظه، ثم تفك الضغط واستعادته عند الحاجة، مما يقلل بشكل كبير من متطلبات ذاكرة GPU ويزيد كفاءة الاستنتاج.

لكن هناك خطوة خاصة في عملية حساب MLA: تحتاج إلى إنشاء فهرس نادر من كمية كبيرة من المعلومات التاريخية: مشابه لتحديد عدد قليل من الكتب الأكثر صلة بسرعة داخل مكتبة ضخمة، ثم قراءتها بدقة.

خطوة "البحث عن الكتاب" تعتمد على معلومات عالمية ولا تصلح للتوزيع عبر بطاقات متعددة؛ إنما "القراءة الدقيقة" هي التي تصلح للحساب المتوازي عبر بطاقات متعددة. إذا إجبرت جميع بطاقات GPU الثمانية على المشاركة في "البحث عن الكتاب"، فسيُهدر وقت كبير في مزامنة الاتصال بين بطاقات GPU.

حل TileRT هو جعل GPU تعمل بشكل غير متجانس: يُخصص GPU 0 ليكون "باحث المكتبة"، مسؤولًا عن الفهارس النادرة واتخاذ قرارات التوجيه؛ بينما تُخصص GPU 1–7 لتكون "محللين متعمقين"، مسؤولين عن حسابات الانتباه الكثيفة والعمليات المصفوفية. يستخدم كلا النوعين من العاملين استراتيجيات التوازي الأنسب لهما للتعاون في إكمال طبقة الحساب بأكملها.

النموذج الكبير

بعد ذلك، يدمج TileRT عمليات الاتصال بين وحدات معالجة الرسوميات مباشرة في خط أنابيب التنفيذ، ولا تُعتبر خطوات منفصلة. من الخارج، يكتمل نظام البطاقات الثمانية حساب طبقة الانتباه بتشغيل نواة واحدة فقط، ويتم إنجاز الاتصال والحساب الداخليين بشكل سلس داخل خط الأنابيب المستمر.

تُحلّ الطبقتان أعلاه المشكلات ضمن نطاق الجهاز الواحد. عندما يتم توسيع العقدة إلى مئات أو حتى آلاف وحدات معالجة الرسومات (GPU)، يصبح نقل البيانات بين وحدات معالجة الرسومات نفسه سقفًا جديدًا.

الممارسة الصناعية القياسية هي ROFT (Rail-Optimized Fat-Tree)، وهي الحل المعتمد من NVIDIA والمعيار المطلق في الصناعة.

هيكلها على شكل شجرة: يربط الخادم أولاً بمفتاح Leaf في المستوى السفلي (طبقة الوصول، الموجه مباشرة إلى الخوادم)، ثم يربط مفتاح Leaf بمفتاح Spine في المستوى العلوي (طبقة الهيكل العظمي، المسؤولة عن ربط مختلف مفاتيح Leaf معًا، كمفترق طرق سريع). لنقل البيانات بين وحدتي GPU، يجب أن "تصعد أولاً إلى Spine، ثم تنزل إلى مفتاح Leaf الهدف"، مع مرورها على الأقل بثلاث قفزات.

لتجنب تركيز حركة المرور على سلاسل قليلة، تعتمد هذه البنية على خوارزمية ECMP لتوزيع البيانات عبر مسارات متعددة، وتعمل بكفاءة ضمن افتراض توزيع حركة المرور على الإنترنت "إحصائيًا متساويًا".

لكن حركة مرور سيناريو الاستدلال غير متساوية تمامًا. يمكن أن يختلف طول السياق بين الطلبات بمقدار عشرين ضعفًا، واتجاه نقل KV Cache بين وحدات معالجة الرسومات عشوائي تقريبًا، وتصبح بعض مفاتيح Leaf مراكز حارة دورية، مما يُفعّل آلية الضغط العكسي، وينتشر الازدحام من منطقة محلية إلى كامل السلسلة. هذا الازدحام ليس نتيجة يمكن حلها بضبط معاملات البروتوكول، بل هو ناتج عن هيكل التوبولوجيا نفسه.

النموذج الكبير

الانفجار الجوهري لـ ZCube: جعل هذا الازدحام مستحيلاً فيزيائيًا من مستوى البنية التحتية.

يتكون التصميم الأساسي من خطوتين:

الخطوة الأولى: إلغاء طبقة Spine، وتبسيط الشبكة بالكامل. قسّم جميع مفاتيح Leaf إلى مجموعتين حسب الأرقام الفردية والزوجية، وقم بربط المجموعتين تمامًا، بحيث يتصل أي مفتاح فردي بكل المفاتيح الزوجية والعكس صحيح. يمكن لأي جهازي GPU الوصول إلى بعضهما البعض عبر مفتاحين كحد أقصى، مما يقلل عدد القفزات من 3 إلى 2.

النموذج الكبير

الخطوة الثانية، وهي الأكثر دقة: يتم توصيل كل بطاقة شبكة GPU بطرق مختلفتين تمامًا بمجموعتين من المفاتيح. هذا التصميم الخاص يوفر خاصية رياضية أساسية: بين أي بطاقتَي GPU في الشبكة، هناك مسار واحد مثالي فقط.

النموذج الكبير

"المسار الوحيد" يزيل جذور الازدحام تمامًا. إن البنية التقليدية عرضة لظهور نقاط ساخنة بسبب وجود مسارات متعددة، وعندما يخطئ خوارزمية التوازن في اختيار المسار، يؤدي ذلك إلى تركيز الحركة. إن ZCube يزيل مفهوم "الاختيار" من التصميم نفسه: لا حاجة للتوازن، لأنه لا توجد مسارات فرعية على الإطلاق.

04 Under the same hardware conditions, how is the accounting done?

بعد ترقية مجموعة إنتاج GLM-5.1 من ROFT التقليدي إلى ZCube، حصلت Zhipu على ثلاثة أرقام:

بشكل عام، باستخدام نفس كمية GPU، يمكن للمجموعة خدمة عدد أكبر من المستخدمين؛ وبنفس متطلبات تجربة المستخدم، يمكن للمجموعة شراء ثلث أقل من أجهزة الشبكة. تحسين الكفاءة والتكلفة معًا.

النموذج الكبير

بشكل محدد، فإن زيادة الإنتاجية بنسبة 15% تعادل الحصول على 15% إضافية من قوة الحوسبة مجانًا. مع بقاء عدد وحدات المعالجة الرسومية ثابتًا، فإن زيادة الإنتاجية بنسبة 15% تعادل انخفاض تكلفة الأجهزة الموزعة لكل رمز بنسبة حوالي 13%، أو بمعنى آخر، يمكن خدمة 15% مستخدمين إضافيين بنفس التكلفة.

إذا كان هناك تجمع يحتوي على 1000 بطاقة GPU، فإن هذا الترقية تعادل إضافة 150 بطاقة إضافية من العدم، ووفقًا لسعر السوق الحالي لبطاقات الاستنتاج الفائقة، فإن هذه قيمة حوسبة تبلغ ملايين اليوانات.

انخفض تأخير الذيل بنسبة 40.6٪، وهو يحل مشكلة الاستقرار وليس السرعة المتوسطة. مهمة عميل تتطلب 50 جولة من المكالمات، إذا انخفض تأخير الذيل بمقدار ثانية واحدة في كل مرة، فإن أطول وقت لإكمال المهمة يُقلص بأكثر من دقيقة واحدة.

تقليل التكلفة بنسبة ثلث، وهو توفير مباشر على مستوى البناء. ألغت ZCube طبقة Spine، مما يقلل مباشرةً عدد المفاتيح ووحدات الألياف البصرية المطلوبة بنسبة ثلث في نفس حجم العقدة. وفقًا لتقديرات ZhiPu، يمكن تحقيق وفورات تتراوح بين 210 مليون و640 مليون يوان فقط من خلال هذا الإجراء في عقدة بحجم عشرة آلاف وحدة.

على المدى الطويل، مع تزايد حجم العقد بشكل أسّي، يزداد تعقيد الاتصال بين وحدات معالجة الرسوميات بمقدار عدة أضعاف، كما تزداد احتمالية وتأثير الازدحام بشكل متزامن. وهذا يعني أن قيمة الابتكارات على مستوى البنية مثل ZCube ستظهر بشكل أسرع مع استمرار توسع عقد الاستنتاج. قد تكون عوائد العقد من مستوى عشرة آلاف وحدة غدًا أكثر من 15٪ اليوم.

05 في الختام

بعد قراءة تقرير تقني Zhipu، أتساءل ما إذا كان سيُحدث ضجة في الصناعة كما فعل DeepSeek؟

فكر جيدًا، يبدو أن تأثير كليهما في جوانب مختلفة. عندما ظهر DeepSeek، أثبت أنه يمكن تحقيق نفس الذكاء باستخدام قدرات حوسبة أقل بكثير. وقلق السوق من "انخفاض الحاجة إلى وحدات معالجة الرسوميات"، لذا تبخرت قيمة نيفيديا السوقية بمقدار 600 مليار دولار في ذلك اليوم.

لكن إثبات تقنية Zhipu اليوم يُظهر: بنفس القدرة الحسابية، يمكن إنتاج المزيد. إنها تعيد هيكلة "ما يجب أن يبدو عليه البنية التحتية الأخرى خارج GPU".

على المدى القصير، لن تتأثر نيفيديا، لكن على المدى الطويل، يتم "تخفيف التربة" حول حصنها المتمثل في GPU + اتصال NVLink + شبكة InfiniBand + نظام بيئي برمجي CUDA، خاصةً أن نيفيديا اشترت InfiniBand مقابل 6.9 مليار دولار أمريكي في عام 2019، وسيتم تآكل كبير في القيمة المضافة الخاصة بنيفيديا على جانب الشبكة.

بالإضافة إلى ذلك، ألغت ZCube طبقة Spine، لكنها زادت متطلبات كثافة المنافذ لمحولات Leaf. المستفيدون هم الشركات القادرة على تصنيع محولات Leaf ذات كثافة عالية وعدد كبير من المنافذ (Ruijie و Arista وشريحة الـSwitch من Broadcom)، بينما المتضررون هم الشركات التي تعتمد بشكل رئيسي على محولات Spine عالية الأداء لتحقيق هامش ربح أعلى.

في عام 2025، تشغل Celestica وNVIDIA معًا حوالي 50٪ من سوق مفاتيح الشبكة الخلفية للذكاء الاصطناعي، وسيواجه هذا الترتيب إعادة توزيع بعد انتشار نموذج ZCube.

الوحدات الضوئية هي أقرب اتجاه مستفيد من التغييرات في سلسلة التوريد هذه، والمنطق واضح جدًا. بالنسبة للشركات المصنعة للوحدات الضوئية في الصين (مثل Zhongji Xuchuang و Tianfu Communications)، فإن هذا يمثل ميزة هيكلية: ليس فقط لأن الكمية الكلية في ارتفاع، بل أيضًا لأن الطلب على الوحدات الضوئية عالية السرعة (800G، 1.6T) ضمن نموذج ZCube أكثر تركيزًا وإلحاحًا مقارنة بالبنية التقليدية.

سواءً كان ذلك من خلال بنية TileRT أو ZCube، فإن هذا عبارة عن محرك استنتاج برمجي خالص يعمل على وحدات معالجة الرسومات القياسية، ولا يعتمد على ميزات الأجهزة الحصرية من نيفيديا، ويمكن نظريًا نقله إلى شرائح صينية مثل هواوي Ascend. بمجرد نجاح هذا الاتجاه، سيُخفض بشكل كبير من عتبة طبقة البرمجيات للشرائح الصينية للذكاء الاصطناعي في سيناريوهات الاستنتاج.

هذا ربما هو المعنى الأكبر وراء هذا الابتكار التكنولوجي.