يحقق DiffusionGemma سرعة توليد نصوص أسرع بـ 4 مرات باستخدام تقنيات التفاضل

لسنوات، عملت نماذج اللغة الكبيرة ككاتب سريع جدًا: كلمة واحدة في كل مرة، من اليسار إلى اليمين، دون العودة للخلف. إن DiffusionGemma يتخلص تمامًا عن هذا الإجراء. يستخدم النموذج المفتوح تقنيات التفاضل لإنتاج كتل كاملة من النص في نفس الوقت، مما يحقق سرعات توليد تصل إلى أربع مرات أسرع من النماذج التكرارية التقليدية.

كيف يعمل DiffusionGemma فعليًا

تولد نماذج اللغة التقليدية النص تسلسليًا. يتم إنتاج كل رمز (تقريبًا كلمة أو جزء من كلمة) واحدًا تلو الآخر، حيث يعتمد كل رمز جديد على كل ما سبقه.

تستفيد DiffusionGemma من نفس عائلة التقنيات التي ثورت في توليد الصور. تعمل نماذج التفتيت من خلال البدء بالضوضاء وتحسينها تدريجيًا لتصبح مخرجات متماسكة. عند تطبيقها على النص، يعني ذلك أن النموذج يمكنه العمل على أجزاء متعددة من الرد في نفس الوقت بدلاً من الانتظار حتى يتم تأكيد كل كلمة قبل الانتقال إلى التالية.

في التقييمات، حقق DiffusionGemma سرعات عينات تبلغ حوالي 1,479 رمزًا في الثانية. هذا التحسن في السرعة بمعامل 4 ليس حدًا نظريًا. بل هو معيار مقيس.

بما أن نماذج التشتت تُحسّن المخرجات بشكل تكراري بدلاً من التزام كل رمز بشكل دائم، فيمكن لـ DiffusionGemma تعديل وإصلاح الأخطاء أثناء عملية التوليد نفسها. لا تمتلك النماذج التقليدية هذا الامتياز. بمجرد توليد كلمة، تصبح ثابتة، وأي أخطاء لاحقة تنتشر للأمام.

الجانب الجهازي وربط Google DeepMind

يستلهم DiffusionGemma من Gemini Diffusion التابع لـ Google DeepMind، الذي ابتكر مناهج قائمة على الانتشار لإنتاج النصوص بكفاءة.

تم تحسين DiffusionGemma بشكل خاص لمنصات NVIDIA، بما في ذلك أنظمة RTX PRO وDGX، مما يعني أن المطورين يمكنهم تشغيل النموذج محليًا بأداء مُتسارع بدلاً من الاعتماد حصريًا على واجهات برمجة التطبيقات السحابية.

تشير التقييمات المرجعية إلى أن DiffusionGemma تؤدي بشكل مماثل للنماذج الأكبر مع الحفاظ على ميزتها في السرعة. للمرجع، تحصل Gemini Diffusion على 30.9% مقابل 28.5% لـ Gemini 2.0 Flash-Lite في التقييمات المرجعية.

ما يعنيه ذلك لمجال الذكاء الاصطناعي والمستثمرين

بالنسبة للشركات التي تعتمد على توليد النصوص بسرعة، فإن التأثيرات واضحة. يمكن لخطوط إنتاج المحتوى، وأتمتة خدمة العملاء، وأدوات توليد الكود، وأي تطبيق حيث يهم التأخير، الاستفادة من تحسين في السرعة بمقدار 4 مرات. كما أن الاستنتاج الأسرع يعني تقليل تكاليف الحوسبة لكل طلب، مما يؤثر مباشرة على الجدوى الاقتصادية لنشر الذكاء الاصطناعي على نطاق واسع.

المخاطر الرئيسية هي التبني. يمكن أن يُظهر النموذج أداءً جيدًا في التقييمات المُحكمة ورغم ذلك يواجه صعوبات في مواجهة متطلبات النشر في العالم الحقيقي التي تكون فوضوية وغير متوقعة. كونه مفتوحًا ومُحسّنًا لأجهزة NVIDIA المتاحة على نطاق واسع يزيل على الأقل حائلين شائعين لاكتشافه.