تطلق شاومي الإصدار المُسرّع من MiMo بسرعة تصل إلى 1000 رمز/ثانية

موقع CoinNews يذكر:

أطلقت Xiaomi MiMo-V2.5-Pro-UltraSpeed، وهو إصدار مُسرّع للاستنتاج للنموذج الرائد ذو التريليونات من المعلمات. وتقول الشركة إن الإصدار الجديد يحقق سرعة استنتاج تتجاوز 1000 رمز في الثانية على خادم قياسي مكوّن من 8 وحدات معالجة رسومية عامة، مع وصول الذروة التوضيحية إلى ما يقارب 1200 رمز.

لا تركز هذه التحديثات على النموذج الجديد نفسه، بل على كفاءة الاستنتاج. مقارنةً بالحلول التي تعتمد على شرائح مخصصة، فإن شاومي تؤكد هنا على استخدام الأجهزة العامة، مع تحقيق التسريع من خلال تحسينات في البرنامج وجانب النموذج. هذا يعني أن عتبة نشر النماذج الكبيرة بسرعة قد تنخفض أكثر.

تقنيتان تدفعان التسريع

استخدمت شاومي في هذه المرة تقنيتين رئيسيتين. الأولى هي كميّة FP4. قلّصت الشركة طبقات الخبراء التي تمثل الحجم الرئيسي للمعلمات في النموذج إلى دقة 4 بت، بينما حافظت باقي الأجزاء على دقة أعلى. هذا يقلل من استهلاك ذاكرة العرض وضغط النطاق الترددي، مما يعزز سرعة الاستنتاج.

البند الثاني هو التخمين والفك التشفيري لـ DFlash. عادةً ما يقوم التخمين والفك التشفيري التقليدي أولاً بتنبؤ عدد قليل من الرموز بواسطة نموذج أصغر، ثم يتحقق النموذج الأكبر من هذه الرموز بشكل متوازٍ. أما DFlash، فيقوم بتقديم كتلة كاملة من الرموز دفعة واحدة، ثم يُسلّمها للنموذج الرئيسي للتحقق. في مهام البرمجة، يمكن للنموذج الرئيسي قبول متوسط 6.3 رمز من أصل 8 رموز مرشحة في كل جولة.

小米 وشريكها في الاستنتاج TileRT قاما أيضًا بتحسين عملية التنفيذ. فكرتهما هي الحفاظ على عملية الحساب مستمرة داخل GPU، لتقليل التكاليف الإضافية الناتجة عن تشغيل العوامل بشكل متسلسل.

مقارنة سرعة النماذج الرئيسية

وفقًا للبيانات المذكورة من Artificial Analysis، فإن سرعة إخراج النماذج الشائعة الحالية أقل من هذا المستوى عادةً. وتشير التقارير إلى أن سرعة التفاعل الشائعة لسلسلة GPT تبلغ حوالي 68 رمزًا في الثانية، وClaude Opus 4.6 حوالي 71 رمزًا في الثانية، وGemini Flash حوالي 192 رمزًا في الثانية.

كما أشار التقرير إلى أن شركات مثل Cerebras و Groq قد استثمرت على المدى الطويل في تحسين الاستدلال عالي الإنتاجية، مع الاعتماد على هياكل شرائحها الخاصة لتعزيز السرعة. على النقيض من ذلك، حققت Xiaomi هذه النتيجة على عقد GPU عام، مع التأكيد على تحسين الأداء الناتج عن تحسينات البرمجيات.

بدء الاستخدام التجريبي المحدود في 9 يونيو

أشارت Xiaomi إلى أن UltraSpeed تُسرّع النسخة الأصلية من MiMo-V2.5-Pro، وليس النموذج المبسط الخفيف. وقد وُصف أداء هذا النموذج في اختبارات الكود السابقة بأنه قريب من مستوى Claude Opus.

تخطط الشركة لفتح استخدام تجريبي محدود للواجهة البرمجية من 9 يونيو إلى 23 يونيو، وذلك وفقًا لنظام التقديم، حيث سيُمنح أولوية للشركات والمبرمجين المحترفين. من حيث التسعير، يكون سعر إصدار UltraSpeed حوالي ثلاثة أضعاف سعر معدل MiMo القياسي، لكنه يزيد سرعة الإنتاج إلى حوالي عشرة أضعاف.

معلومات إضافية: أفادت Xiaomi أن نموذج التحقق المستند إلى FP4 وDFlash تم إصداره مفتوح المصدر على Hugging Face للاختبار من قبل المجتمع.