تحسينات هندسية من Zhipu AI تعزز كفاءة التكلفة وثقة السوق

اليوم الأول للتداول بعد عطلة عيد العمال، ارتفع Zhipu وMiniMax بشكل جنوني.

في 4 مايو، ارتفع ZhiPu بأكثر من 10٪، واقترب سعر السهم مرة أخرى من عتبة الألف، وارتفع MiniMax بنسبة 12.62٪ ليغلق عند 803 دولارًا هونغ كونغيًا.

وفقًا لتقرير مورغان ستانلي، فإن سبب ارتفاع أسعار الأسهم هو السرد الفريد للذكاء الاصطناعي الصيني من حيث القيمة مقابل السعر.

ذكرت مورغان ستانلي في تقريرها "مسار الصين للذكاء الاصطناعي: قيمة أكبر مقابل كل دولار" أنه في ظل قيود الطاقة الحسابية، فإن مستوى الذكاء بين النماذج الرائدة في الصين والولايات المتحدة يقترب بسرعة، وقد تقلص الفرق إلى 3 إلى 6 أشهر.

في الوقت نفسه، أشار التقرير إلى أن النقطة التي تبرز فيها النماذج الصينية حقًا هي قدرتها على تحقيق مستوى ذكي قريب من نظيراتها الأمريكية بتكلفة استنتاج تتراوح بين 15% و20% من تكلفة النماذج الأمريكية.

هذا الأمر سهل الفهم حقًا. لا يحتاج الجميع إلى استخدام أقوى النماذج، لكن معظم الناس يرغبون في استخدام نماذج أرخص.

السوق لا يشتري قصة بسيطة من "الاستبدال المحلي"، بل يشتري الذكاء الاصطناعي الصيني وهو يحول القيمة مقابل السعر إلى حجم استخدام حقيقي، وإيرادات حقيقية، ومرونة تقييم حقيقية.

لكن السؤال الذي ينشأ هو: من أين يأتي هذا القيمة مقابل السعر؟

إذا كان الهدف مجرد جذب العملاء بأسعار منخفضة، فسيتحول بسرعة إلى حرب أسعار.

إذا كان الأمر يتعلق فقط بتبسيط النموذج، فمنذ فترة، أغلقت شركات مثل Anthropic و OpenAI بوابات التبسيط، فلماذا لم تنخفض التقييمات؟ بل لماذا تم رفعها؟

في الواقع، ما جعل هذا السرد أكثر إقناعًا هو مدونة التقنية التي نشرتها زهي بو قبل عيد العمال بعنوان "Scaling Pain: تجارب الاستنتاج لوكيل برمجة ضخم جدًا".

هذا المنشور لا يتحدث عن رؤية واسعة للذكاء الاصطناعي العام، بل يعرض للسوق الهندسة الأساسية مثل KV Cache وال THROUGHPUT والجدولة والإخراج غير الطبيعي.

الأهم أنه كشف السر وراء قيمة الذكاء الاصطناعي الصينية.

01

في هذه المدونة، تناول ZhiPu بشكل عام كيفية زيادة كمية العمل التي يمكن للوحدة المعالجة الرسومية نفسها إنجازها وتقليل الأخطاء من خلال تحسين التخزين المؤقت والجدولة ومراقبة الاستثناءات.

اكتشف ZhiPu أن استخدام الذكاء الاصطناعي بشكل غير فعّال لا يعني بالضرورة أن النموذج غير ذكي، بل قد يكون بسبب فوضى نظام التشغيل الخلفي. لقد أصلحت المشكلة المتعلقة بتسرب بيانات التخزين المؤقت، وحسّنت جدولة GPU وإعادة استخدام التخزين المؤقت، وأضافت منبهًا قادرًا على اكتشاف المخرجات غير الطبيعية مسبقًا.

وبالتالي، فإن نفس النموذج، بنفس وحدة معالجة الرسومات، يمكنه خدمة عدد أكبر من المستخدمين مع احتمال أقل للأخطاء. لذا، فإن سرديته حول "القيمة مقابل السعر" ليست مجرد تخفيض في السعر، بل يعتمد على تحسينات هندسية لاستخراج مزيد من القدرة الحاسوبية المستقرة والقابلة للاستخدام من كل وحدة معالجة رسومات.

بعد تحسينات هندسية أساسيّة، ارتفع الحد الأقصى لسعة النظام في سيناريوهات وكيل البرمجة لسلسلة GLM-5 بنسبة 132%، وانخفض معدل مخرجات النظام غير الطبيعية من حوالي 10 في عشرة آلاف إلى 3 في عشرة آلاف.

على سبيل المثال، كانت وحدة GPU واحدة تخدم 100 مهمة في الساعة، والآن بعد التحسين، يمكنها خدمة ما يصل إلى 232 مهمة في الساعة.

كل عنصر على حدة لا يكفي لحسم النتيجة. لكن عندما تتراكم معًا، فإنها تُنتج ضعف السعة الإنتاجية بنفس قوة الحوسبة، وتحسينًا في الاستقرار يزيد عن عامل واحد.

النموذج لم يتغير. ما تغير هو الطريقة التي يتم بها "استخدام" النموذج.

على وجه التحديد، منذ مارس، لاحظ Zhipu في المراقبة عبر الإنترنت وتعليقات المستخدمين الخاصة بـ GLM-5 ثلاث ظواهر غير طبيعية: رموز فاسدة، تكرار، وأحرف نادرة. تشبه هذه الظواهر من الناحية السطحية ظاهرة "انخفاض الذكاء" الشائعة في سيناريوهات السياق الطويل.

لكن فريق Zhipu لم يُطلق أي تحسينات تقلل من دقة النموذج. فما مصدر هذا الاستثناء: هل هو من النموذج نفسه أم من سلسلة الاستنتاج؟

بعد تحليل واستنتاج سجلات التسجيل بشكل متكرر، وجدوا نقطة دخول غير متوقعة: يمكن استخدام مؤشر العينة الطارئة كإشارة مرجعية للكشف عن الشذوذ.

كان التخمين العيني في الأصل تقنية تحسين أداء. حيث يتم أولاً توليد رموز مرشحة من قبل النموذج المسودة، ثم يتحقق النموذج المستهدف منها ويقرر ما إذا كان يجب قبولها، مما يزيد كفاءة الترميز دون تغيير توزيع الإخراج النهائي.

ما يفعله هو أن النموذج الصغير يُنتج مجموعة سريعة من الإجابات أولًا، ثم يختار النموذج الكبير الإجابات الصحيحة، مما يجعل العملية سريعة ودقيقة.

اكتشف فريق ZhiPu أنه عندما تحدث استثناءات، فإن مؤشري العينة الاستباقية يظهران نمطًا ثابتًا. لذلك، قاموا بتوسيع العينة الاستباقية من تحسين أداء بسيط إلى إشارة مراقبة فورية لجودة الإخراج.

عندما يستمر طول spec_accept_length تحت 1.4 مع تجاوز طول التوليد 128 رمزًا، أو عندما يتجاوز معدل قبول spec_accept_rate 0.96، يقوم النظام بإيقاف التوليد الحالي وإعادة توجيه الطلب إلى موزع الحمل لإعادة المحاولة.

هذان الرقمان مثل مؤشرات الفحص الطبي؛ فبمجرد أن تصبح غير طبيعية، فهذا يعني أن النموذج "مريض" ويتطلب إعادة تشغيل للعلاج.

على الرغم من أن المستخدم لا يشعر بهذه العملية، إلا أن الخلفية أكملت بالفعل إعادة تشغيل كهذه.

السبب الجذري للخطأ هو تعارض إعادة استخدام KV Cache.

هذا يشبه المطبخ، في أوقات الذروة للوجبات، يأتي الكثير من الأشخاص في نفس الوقت لطلب الطعام.

يجب على النظام حفظ سياق كل مستخدم مؤقتًا، أي ذاكرة KV. ما الذي طلبه الضيوف للتو، هل يريدون تقليل الفلفل أم تجنب الكزبرة؟ لا بأس بضيوف قليلين، لكن مع زيادة عدد الضيوف، يصبح من السهل على النادل أن يخطئ.

مينيماكس

عند التحميل العالي، قد تُستعاد بعض الذاكرة المؤقتة أو تُعاد استخدامها أو تُقرأ بترتيب غير صحيح. نتيجة لذلك، قد يأخذ النموذج سياقًا خاطئًا، مما يؤدي إلى إخراج رموز عشوائية أو تكرار أو أحرف نادرة.

في محرك الاستدلال، تحت بنية فصل PD، هناك عدم توافق بين دورة حياة الطلب واسترداد وإعادة استخدام KV Cache. مع زيادة الضغط المتزامن، تُضخم الصراعات، مما يظهر على جانب المستخدم على شكل رموز فاسدة وتكرار.

ففي وقت واحد، تتنافس طلبات متعددة على ذاكرة واحدة، مما يؤدي إلى فوضى في البيانات، ويظهر للمستخدمين رموزًا غير مفهومة.

The Zhipu team identified this bug and fixed it.

بالإضافة إلى ذلك، اكتشفوا وأصلحوا مشكلة فقدان ترتيب التحميل في وحدة HiCache على مستوى كود الإطار المرجعي المفتوح الشائع SGLang، وهي مشكلة "القراءة قبل الاستعداد".

تم تقديم الحل عبر طلب السحب #22811 إلى مجتمع SGLang وتم قبوله.

SGLang هو مشروع مفتوح المصدر، ويمكن فهم اسمه الكامل على أنه إطار عمل للاستدلال/الخدمة مخصص للنماذج اللغوية الكبيرة. إنه ليس نموذجًا لغويًا كبيرًا، ولا شركة ذكاء اصطناعي، بل مجموعة من البرمجيات الأساسية التي تمكن النماذج الكبيرة من التشغيل بكفاءة.

عند استخدام ZhiPu لإطار العمل المفتوح المصدر SGLang، اكتشفت عيبًا في التخزين المؤقت عند التحميل العالي.

لم تقم فقط بإصلاحه داخليًا، بل قدمت Zhipu أيضًا كود الإصلاح إلى مشروع SGLang المفتوح المصدر.

بعد مراجعة مالك المشروع وقبولها ودمجها، دخل هذا الإصلاح الإصدار العام، ويمكن الآن للمطورين والشركات الأخرى التي تستخدم SGLang الاستفادة منه.

What does this mean?

إذا استخدمت إحدى سلاسل نشر Qwen SGLang + HiCache، فستستفيد علي بابا أيضًا من اكتشاف Zhipu وتصحيحها لهذه المشكلة.

ما زالت نفس الجملة التي قلناها سابقًا، فالنموذج لم يتغير، لكنه أصبح أكثر ذكاءً عند الاستخدام من خلال التحسينات الهندسية.

02

ما كشفته مدونة ZhiPu حقًا هو مستوى أعمق.

إن انخفاض تكلفة عصر روبوتات الدردشة يعود إلى حد كبير إلى تكلفة التدريب المنخفضة، حيث يأتي جزء من مجموعة التدريب من تقطير النماذج الرائدة.

In the Agent era, this trick doesn't work.

منذ بداية العام، أغلقت Anthropic وOpenAI تدريجيًا مدخلات التقطيع، وحظرت صراحةً استخدام مخرجات نماذجهما لتدريب نماذج منافسة. الطريق المختصرة القائمة على التقطيع تصبح ضيقة أكثر فأكثر.

لكن سردية القيمة الممتازة لشركات الذكاء الاصطناعي الصينية لم تضعف، بل إن السوق يضيف وزنًا لهذا السرد.

السبب هو أن تعريف القيمة مقابل السعر قد تغير.

في عصر روبوتات المحادثة، متوسط السياق 55K رمز، محادثة واحدة في كل مرة، تزاحم منخفض.

في عصر الوكلاء، متوسط السياق أكثر من 70K رمز، مهام طويلة الأمد (بمستوى 8 ساعات)، تزاحم عالٍ، إعادة استخدام عالي للبادئات.

في عصر روبوتات الدردشة، وحدة قياس كفاءة الذكاء الاصطناعي بسيطة: عند طرح نفس السؤال، أي نموذج أرخص وأكثر تشابهًا مع مستوى المستوى الأول؟

يتم مناقشة الصناعة حول سعر كل مليون رمز، وحجم معلمات النموذج، ومستوى الأداء في القوائم.

في عصر الوكلاء، لا يسأل أحد عن هذا، لقد عطلت هذه الخوارزمية.

العميل لا يشتري مجرد إجابة. إنه يشتري نتيجة مهمة كاملة مكتملة.

يجب على وكيل البرمجة قراءة الكود وفهم السياق وتحديد الخطوات واستدعاء الأدوات وتعديل الملفات وتشغيل الاختبارات وإعادة المحاولة عند الفشل. التوكنات المستهلكة ليست زيادة في سؤال وجواب واحد، بل هي الميزانية الإجمالية لسير العمل.

كما أن OpenRouter، كأكبر منصة استدعاء عالمية، زادت كمية التوكنات التي تتعامل معها أسبوعيًا من 6.4 تريليون في الأسبوع الأول من يناير 2026 إلى 13 تريليون في الأسبوع الذي ينتهي في 9 فبراير، أي ضعفين خلال شهر واحد.

وفقًا للبيان الرسمي لـ OpenRouter، فإن طلبات التزايديّة في نطاق النصوص الطويلة من 100K إلى 1M هي سيناريوهات استهلاك نموذجية لسير عمل الوكلاء.

لقد انتقل استخدام الناس للذكاء الاصطناعي من نمط "المحادثة" إلى نمط "التدفق". وبالتالي، فقد تغير وحدة كفاءة تكلفة الذكاء الاصطناعي من "تكلفة الرمز الواحد" إلى "تكلفة المهمة".

وهذا يؤدي إلى أن بعض النماذج، على الرغم من أن رموزها رخيصة، إلا أن أدائها ضعيف، مما يتسبب في فشلها المتكرر أثناء تنفيذ المهام أو عدم تحقيق نتائج مرضية، وبالتالي فإن سعر وكيلها ليس رخيصًا.

على سبيل المثال، إذا حدثت تلفية واحدة فقط أثناء مهمة ترميز على مستوى 8 ساعات، فقد يتعين إعادة تشغيل سير العمل بالكامل. التوفير في تكلفة التوكنات لا يمكنه تعويض الوقت المهدر.

سرد قيمة الصين للذكاء الاصطناعي يتصاعد.

سابقًا، كان الحديث عن "إعطاء إجابات بنفس المستوى، وأنا أرخص". الآن، الحديث عن "نفس المهام المعقدة، أستطيع إكمالها بتكلفة أقل".

البنية التحتية مفتوحة المصدر تصبح أيضًا خندقًا جديدًا للذكاء الاصطناعي في الصين.

كما ذُكر سابقًا، SGLang هو مثال على ذلك. تبدأ قدرات الهندسة الصينية في الذكاء الاصطناعي في التأثير على المجتمعات العليا.

قيمة هذا الأمر لا تكمن فقط في إصلاح Zhipu لخطأ، بل في أن شركات الذكاء الاصطناعي الصينية تقوم بتحويل مشكلات التزاحم العالي والنصوص الطويلة واستدعاء الوكلاء من المشاريع الحقيقية إلى قدرات بنية تحتية عامة.

كما ذُكر سابقًا، عندما يتم إدخال إصلاح في إطار مفتوح المصدر مثل SGLang، فإنه لم يعد يخدم نماذج Zhipu فقط. جميع الفرق التي تنشر نماذج كبيرة باستخدام هذا الإطار، لديها فرصة للحصول على تخزين مؤقت أكثر استقرارًا، وتكاليف استدلال أقل، وتجربة وكيل أفضل.

يمكن محاكاة قدرات النموذج، ويمكن خفض السعر، لكن البنية التحتية بمجرد دخولها إلى البيئة المفتوحة المصدر تصبح معيارًا وواجهة وعادات تطوير.

من كتب تجربته الهندسية في هذه الأنظمة الأساسية أولاً، سيكون أكثر قدرة على التموضع في الدورة القادمة من الانفجار التطبيقي للذكاء الاصطناعي.

03

العودة إلى أسواق رأس المال.

ارتفعت أسهم شركات النماذج الكبيرة للذكاء الاصطناعي بشكل شامل، هل يرغب رأس المال في إعادة تقييم شركات الذكاء الاصطناعي؟ ما الذي يشتريه السوق بالضبط؟

الإجابة هي أن الأسواق المالية تدفع ثمن السرد القائل بأن شركات الذكاء الاصطناعي الصينية يمكنها تحقيق ذكاء قريب من المستوى الأول بتكلفة استنتاج أقل.

لا يزال بناءً على بيانات OpenRouter.

انخفض حصة الشركات الرائدة في الولايات المتحدة من النماذج من 58% إلى 19%، بينما ارتفعت حصة استهلاك الرموز الخاصة بالشركات الرائدة في الصين من 5% في أبريل 2025 إلى 32% في مارس 2026.

استخدام عملات MiniMax و Zhipu و Alibaba زاد من 4 إلى 6 مرات في فبراير-مارس 2026 مقارنة بديسمبر العام الماضي.

بخلاف استدعاء الرموز، فإن الذكاء الاصطناعي الصيني يُشكّل منطق نمو مختلف تمامًا عن الشركات العملاقة العالمية.

النماذج الرائدة في الخارج تبيع "فائدة القدرة".

كلما زادت قوة النموذج، زادت تكلفة كل استدعاء، ويُدفع المستخدمون مقابل أقوى الذكاء. كل من Claude و GPT-5 و Gemini تتجه في هذا الاتجاه.

الذكاء الاصطناعي الصيني يبيع "الهندسة".

تقترب قدرات النموذج من نماذج المستوى الأول، لكنها تقدم سعرًا أقل، وتأخيرًا أقل، وحدود استدعاء أدنى، مما يجعلها أكثر ملاءمة لاحتياجات معظم السيناريوهات عالية التردد.

ذكر تقرير مورغان ستانلي أن سعر الإدخال للنموذج الصيني يبلغ حوالي 0.3 دولار لكل مليون رمز، بينما تبلغ أسعار بعض المنتجات المماثلة في الخارج حوالي 5 دولارات. هناك فرق يتراوح بين عشرات المرات.

عندما يتحول الذكاء الاصطناعي من أداة تجريبية إلى أداة إنتاجية، فإن التكلفة مقابل الفائدة ستُحدد مباشرة تكرار الاستخدام.

كلما انخفض سعر النموذج، أصبحت الشركات أكثر جرأة في تكليفه بمزيد من مهام خدمة العملاء والبرمجة والتسويق وتحليل البيانات. وكلما زاد عدد المهام التي ينفذها، زاد استهلاك الرموز، مما يمكن المنصة من توزيع تكاليف البنية التحتية.

مينيماكس

أعتقد أنه في هذه المرحلة، من الممكن أن يتشكل عجلة دوّارة.

الجولة الأولى تهدف إلى جذب المطورين والشركات من خلال أسعار واجهة برمجة التطبيقات الأقل وقدرة أقرب إلى المستوى الأول.

الجولة الثانية، ستوفر زيادة في حجم الاستخدام مزيدًا من السيناريوهات الواقعية، مما يدفع النموذج ونظام الاستدلال إلى مواصلة التحسين.

الجولة الثالثة، وهي ما تناولته مدونة التكنولوجيا الخاصة بـ Zhipu، وهي استخدام التحسينات الهندسية لتقليل تكلفة كل وحدة token وكل مهمة، مما يمكّن المصنعين من الاستمرار في خفض الأسعار أو زيادة الحجم، أو رفع الأسعار في السيناريوهات ذات القيمة العالية.

الجولة الرابعة، عندما يصبح استهلاك الرموز هو التدفق الجديد في عصر الذكاء الاصطناعي، فمن يستطيع تحمل عدد أكبر من الرموز بتكلفة أقل، يكون أقرب إلى شركة منصة في المرحلة التالية.

إذا كان الانخفاض في السعر ناتجًا فقط عن تخفيض النموذج، فسيشعر السوق بالقلق من أن هذا دعم وحرب أسعار، مما يؤدي إلى إنفاق متزايد، وستصل حتمًا لحظة لا يقوى فيها محفظة أحد على التحمل.

كما أن حرب الأسعار لا يمكنها دعم التقييمات المرتفعة.

لكن إذا كان وراء التخفيض تحسين في الإنتاجية، وإعادة استخدام التخزين المؤقت، وانخفاض معدل الأخطاء، وتحسين كفاءة الجدولة، فإن السعر المنخفض ليس تنازلاً عن الربح مقابل النمو، بل هو مساحة تكلفة تم تحريرها من خلال القدرة الهندسية.

نتيجة حرب الأسعار وهذين التحسينات الهندسية، على الرغم من أن كليهما يجعل النموذج أرخص ويبدو متشابهًا في التقارير المالية، إلا أنهما يختلفان كثيرًا في نموذج التقييم.

الأول هو دعم، وسيتم تسعيره بخصم في السوق. الثاني هو عائق هندسي، وسيتم تسعيره بعلاوة في السوق.

يمكن في النهاية الوصول إلى حكم.

في الماضي، كانت تقييمات شركات الذكاء الاصطناعي تعتمد على حدود قدرة النموذج، ورؤية من هو الأقرب إلى AGI. كان السوق يدفع مقابل "أقوى ذكاء"، وصار تعريف "أقوى ذكاء" أكثر غموضًا، وزادت تكلفة كل استدعاء على حدة.

في عصر الوكلاء، لا يزال التقييم يعتمد على الحد الأدنى للتكلفة. انظر من يستطيع تسليم الذكاء بشكل مستقر ورخيص واسع النطاق.

For those seeking the most advanced "intelligence," this may not be what Chinese AI excels at.

لكن الذكاء الاصطناعي الصيني هو الأكثر احتمالاً أن يجعل كلمتي "ذكاء" بنية تحتية في متناول الجميع والشركات.

لكن السوق لا يرغب في دفع المال إلا للشركات التي تستطيع توضيح منطقها بوضوح.

هذا المقال من حساب ويشات الرسمي "حروف بانغ" (ID: wujicaijing)، الكاتب: مياو زهينغ