جوجل تكشف عن استنتاج ذكي محلي أسرع بثلاث مرات دون الحاجة إلى أجهزة جديدة

موقع CoinNews يفيد:

من الجيد تشغيل نماذج الذكاء الاصطناعي على جهاز الكمبيوتر الخاص بك — لكن ليس دائمًا.

يُعد بحماية الخصوصية، وخالية من رسوم الاشتراك، ولا تغادر بياناتك جهازك أبدًا. لكن بالنسبة للغالبية، فإن الواقع هو أن المؤشر يومض لمدة خمس ثوانٍ بين الجمل.

هذا العائق له اسم: سرعة الاستدلال. إنه لا يتعلق بذكاء النموذج، بل هو مشكلة في الأجهزة. يقوم النموذج القياسي للذكاء الاصطناعي بإنشاء جزء كلمة واحد في كل مرة (يُسمى "مُعرّف")، ويجب على الأجهزة نقل مليارات المعلمات من الذاكرة إلى وحدة الحساب لإنشاء كل مُعرّف. هذا التصميم بحد ذاته بطيء جدًا. على الأجهزة الاستهلاكية، هذا أمر لا يُحتمل تقريبًا.

الطريقة البديلة التي يعتمدها معظم الأشخاص هي تشغيل نماذج أصغر حجمًا وأداءً أضعف، أو تشغيل إصدارات مضغوطة بشدة تُعرف باسم النماذج المُكمَّلة. لا تُعد أي من هاتين الطريقتين مثالية، فكلاهما يضحّي ببعض الجودة مقابل السرعة. على الرغم من إمكانية تشغيلهما، إلا أنهما ليستان النموذج الذي تريده حقًا.

الآن قدمت جوجل حلاً مختلفًا. أطلقت الشركة مؤخرًا مسودة متعددة العملات (MTP) لتقنيات نماذجها المفتوحة من عائلة Gemma 4 — وهي تقنية تمكن من تحقيق زيادة في السرعة تصل إلى ثلاثة أضعاف دون التأثير على جودة النموذج أو قدرته على الاستنتاج على الإطلاق.

يُعرف هذا الأسلوب باسم التخمين التوليدي، وقد كان مفهومه موجودًا لسنوات عديدة. نشر باحثو جوجل ورقة أساسية في عام 2022. حتى الآن، بدأ هذا المفهوم في قبول واسع النطاق، لأنه يتطلب بنية مناسبة لتشغيله على نطاق واسع.

ببساطة، يعمل على النحو التالي: بدلاً من ترك النموذج الكبير القوي يؤدي كل المهمة بمفرده، يتم دمجه مع نموذج "مُنبئ" صغير. النموذج المُنبئ سريع وذو تكلفة منخفضة — فهو قادر على التنبؤ بعدة رموز دفعة واحدة، في وقت أقل حتى من الوقت الذي يحتاجه النموذج الرئيسي لإنشاء رمز واحد. ثم، يتحقق النموذج الكبير من جميع هذه التنبؤات في جولة واحدة فقط. إذا كانت التنبؤات صحيحة، فسيتم الحصول على التسلسل الكامل بتكلفة جولة تقدّمية واحدة فقط.

According to Google "If the target model agrees with the draft, it accepts the entire sequence in a single forward pass—even generating its own additional tokens in the process."

لا خسارة: لا تزال النماذج الكبيرة — مثل الإصدار الكثيف البالغ 31 مليار معلمة من Gemma 4 — تتحقق من كل رمز، ويظل جودة الإخراج متماثلة تمامًا. أنت ببساطة تستفيد من قدرات الحوسبة غير المستخدمة أثناء الأجزاء البطيئة.

تقول جوجل إن نموذج الرسم المبدئي يشارك ذاكرة التخزين المؤقت للمفاتيح والقيم (KV cache) مع النموذج المستهدف، وهي بنية ذاكرة تخزن السياق الذي تم معالجته، وبالتالي لا يضيع الوقت في إعادة حساب المعلومات التي يعرفها النموذج الكبير. بالنسبة للنماذج الحدية الصغيرة المصممة خصيصًا للأجهزة المحمولة وأجهزة رازبيري باي، بنى الفريق تقنية تجميع فعالة لتقليل وقت التوليد بشكل إضافي.

هذا ليس المحاولة الوحيدة في مجال الذكاء الاصطناعي لموازاة توليد النصوص. تستخدم نماذج اللغة القائمة على الانتشار — مثل Mercury من Inception Labs — منهجًا مختلفًا تمامًا: فهي لا تتنبأ برمز واحد في كل مرة، بل تبدأ من ضوضاء وتحسن الإخراج بالكامل بشكل تكراري. من الناحية النظرية، تكون سريعة، لكن نماذج اللغة القائمة على الانتشار تواجه صعوبة في مجاراة جودة نماذج Transformer التقليدية، لذا فهي تُعتبر أكثر كونها موضوع بحثي أكثر من كونها أداة عملية.

يختلف التخمين التوليدي لأنه لا يغير النموذج الأساسي على الإطلاق. إنه تحسين في الخدمة، وليس استبدالًا في البنية. ستصبح النسخة الأصلية من Gemma 4 التي كنت تشغلها أسرع.

النتيجة الفعلية ملحوظة حقًا. وفقًا لاختبارات Google الداخلية، بعد تمكين مسودة MTP على شريحة Gemma 4 26B المزودة بمعالج Nvidia RTX Pro 6000 للسطح المكتبي، زاد عدد المعالجات لكل ثانية تقريبًا مرتين. وعلى شرائح Apple Silicon، يمكن أن يؤدي حجم الدُفعات من 4 إلى 8 طلبات إلى تحسين في السرعة بنسبة تقارب 2.2 مرة. وعلى الرغم من أن جميع السيناريوهات لا تحقق الحد الأقصى البالغ 3 مرات، إلا أن هذا يظل فرقًا كبيرًا بين "قابل للتطبيق بصعوبة" و"سريع بما يكفي للاستخدام العملي".

السياق مهم هنا. عندما أثار نموذج الصين DeepSeek مفاجأة في السوق في يناير 2025. — مما أدى إلى تبخر 600 مليار دولار من قيمة شركة نيفيديا خلال يوم واحد — فإن الدرس الأساسي هو أن تحسين الكفاءة له تأثير أكبر من مجرد زيادة القدرة الحسابية. طريقة التشغيل الذكية أفضل من زيادة الاستثمارات في الأجهزة فقط. أداة رسم MTP الخاصة بجوجل هي خطوة أخرى في هذا الاتجاه، لكنها تستهدف بوضوح فئة المستهلكين.

يُشبه قطاع الذكاء الاصطناعي بأكمله حاليًا مثلثًا مكونًا من ثلاثة أجزاء: الاستدلال، والتدريب، والذاكرة. أي تقدم في أي مجال من هذه المجالات سيؤثر على النظام البيئي بأكمله، إما بدفعه للأمام أو إحداث صدمة. مثال على ذلك طريقة تدريب DeepSeek (بناء نماذج قوية باستخدام أجهزة منخفضة التكلفة)، بينما تعد ورقة بحثية أخرى هي TurboQuant (كيفية تقليل ذاكرة الذكاء الاصطناعي دون خفض الجودة). أدت هاتان الورقتان إلى انهيار السوق، حيث سعت الشركات جاهدة لإيجاد استراتيجيات للتعامل معهما.

أشارت جوجل إلى أن أداة الرسم هذه يمكنها "تحسين سرعة الاستجابة: تقليل كبير في التأخير لتطبيقات المحادثة شبه الزمنية الحقيقية، وتطبيقات الصوت الغامرة، وسير عمل الوكلاء" — وهي مهام تتطلب تأخيرًا منخفضًا لتكون فعالة حقًا.

تطبيقات سريعة وواضحة: مساعد كود محلي لا يسبب تأخيرًا؛ واجهة صوتية تستجيب قبل أن تنسى ما سألت عنه؛ وسير عمل ذكي يُكمل الخطوات دون انتظار ثلاث ثوانٍ. وكل هذا يمكن تحقيقه على الأجهزة التي تمتلكها بالفعل.

تم إطلاق مسودة MTP وجه يعانق وهي متوافقة مع ترخيص Apache 2.0 وKaggle وOllama. وهي جاهزة للاستخدام فورًا وتدعم vLLM وMLX وSGLang وHugging Face Transformers.