تطلق شاومي الإصدار المُسرّع من MiMo بسرعة تصل إلى 1000 رمز/ثانية

icon币界网
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
أطلقت شاومي نموذجًا جديدًا جاهزًا لقائمة الرموز، MiMo-V2.5-Pro-UltraSpeed، بقدرة تزيد عن 1000 رمز في الثانية على الخوادم القياسية. يستخدم النموذج كميزة FP4 وفك تشفير DFlash لتعزيز السرعة دون الحاجة إلى شرائح مخصصة. يقلل تحسين TileRT من العبء على وحدة معالجة الرسومات. وهو يتفوق على GPT وClaude Opus وGemini Flash. يبدأ الوصول عبر واجهة برمجة التطبيقات في 9 يونيو. النموذج أثمن بثلاث مرات لكنه أسرع بعشر مرات. تم فتح مصادر نقاط التحقق الخاصة بـ FP4 وDFlash. تظل أخبار لجنة الأوراق المالية والبورصات مصدر قلق رئيسي للمشاريع المتعلقة بالرموز.
موقع CoinNews يذكر:

أطلقت Xiaomi MiMo-V2.5-Pro-UltraSpeed، وهو إصدار مُسرّع للاستنتاج للنموذج الرائد ذو التريليونات من المعلمات. وتقول الشركة إن الإصدار الجديد يحقق سرعة استنتاج تتجاوز 1000 رمز في الثانية على خادم قياسي مكوّن من 8 وحدات معالجة رسومية عامة، مع وصول الذروة التوضيحية إلى ما يقارب 1200 رمز.

لا تركز هذه التحديثات على النموذج الجديد نفسه، بل على كفاءة الاستنتاج. مقارنةً بالحلول التي تعتمد على شرائح مخصصة، فإن شاومي تؤكد هنا على استخدام الأجهزة العامة، مع تحقيق التسريع من خلال تحسينات في البرنامج وجانب النموذج. هذا يعني أن عتبة نشر النماذج الكبيرة بسرعة قد تنخفض أكثر.

تقنيتان تدفعان التسريع

استخدمت شاومي في هذه المرة تقنيتين رئيسيتين. الأولى هي كميّة FP4. قلّصت الشركة طبقات الخبراء التي تمثل الحجم الرئيسي للمعلمات في النموذج إلى دقة 4 بت، بينما حافظت باقي الأجزاء على دقة أعلى. هذا يقلل من استهلاك ذاكرة العرض وضغط النطاق الترددي، مما يعزز سرعة الاستنتاج.

البند الثاني هو التخمين والفك التشفيري لـ DFlash. عادةً ما يقوم التخمين والفك التشفيري التقليدي أولاً بتنبؤ عدد قليل من الرموز بواسطة نموذج أصغر، ثم يتحقق النموذج الأكبر من هذه الرموز بشكل متوازٍ. أما DFlash، فيقوم بتقديم كتلة كاملة من الرموز دفعة واحدة، ثم يُسلّمها للنموذج الرئيسي للتحقق. في مهام البرمجة، يمكن للنموذج الرئيسي قبول متوسط 6.3 رمز من أصل 8 رموز مرشحة في كل جولة.

小米 وشريكها في الاستنتاج TileRT قاما أيضًا بتحسين عملية التنفيذ. فكرتهما هي الحفاظ على عملية الحساب مستمرة داخل GPU، لتقليل التكاليف الإضافية الناتجة عن تشغيل العوامل بشكل متسلسل.

مقارنة سرعة النماذج الرئيسية

وفقًا للبيانات المذكورة من Artificial Analysis، فإن سرعة إخراج النماذج الشائعة الحالية أقل من هذا المستوى عادةً. وتشير التقارير إلى أن سرعة التفاعل الشائعة لسلسلة GPT تبلغ حوالي 68 رمزًا في الثانية، وClaude Opus 4.6 حوالي 71 رمزًا في الثانية، وGemini Flash حوالي 192 رمزًا في الثانية.

كما أشار التقرير إلى أن شركات مثل Cerebras و Groq قد استثمرت على المدى الطويل في تحسين الاستدلال عالي الإنتاجية، مع الاعتماد على هياكل شرائحها الخاصة لتعزيز السرعة. على النقيض من ذلك، حققت Xiaomi هذه النتيجة على عقد GPU عام، مع التأكيد على تحسين الأداء الناتج عن تحسينات البرمجيات.

بدء الاستخدام التجريبي المحدود في 9 يونيو

أشارت Xiaomi إلى أن UltraSpeed تُسرّع النسخة الأصلية من MiMo-V2.5-Pro، وليس النموذج المبسط الخفيف. وقد وُصف أداء هذا النموذج في اختبارات الكود السابقة بأنه قريب من مستوى Claude Opus.

تخطط الشركة لفتح استخدام تجريبي محدود للواجهة البرمجية من 9 يونيو إلى 23 يونيو، وذلك وفقًا لنظام التقديم، حيث سيُمنح أولوية للشركات والمبرمجين المحترفين. من حيث التسعير، يكون سعر إصدار UltraSpeed حوالي ثلاثة أضعاف سعر معدل MiMo القياسي، لكنه يزيد سرعة الإنتاج إلى حوالي عشرة أضعاف.

معلومات إضافية: أفادت Xiaomi أن نموذج التحقق المستند إلى FP4 وDFlash تم إصداره مفتوح المصدر على Hugging Face للاختبار من قبل المجتمع.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.