يُصدر Sapient نموذج HRM-Text بـ 1 مليار معلمة بتكلفة تدريب أقل بـ 1,300 مرة

رسالة AIMPACT، 19 مايو (UTC+8)، وفقًا لمراقبة Beating، أطلقت Sapient Intelligence نموذجًا أساسيًا للإنشاء النصي بحجم 1 مليار معلمة (1B) يُسمى HRM-Text. إنه نموذج تدريبي خالص مبني على هندسة نموذج الاستدلال الهرمي (HRM). من خلال إدخال استدلال في الفضاء الكامن في الطبقات السفلية من الهيكل، قلل هذا النموذج استهلاك قوة الحوسبة للتدريب الأساسي من 130 إلى 600 مرة. على وجه التحديد، أكمل HRM-Text التدريب الأساسي باستخدام 40 مليار (40B) رمز منظم فقط، أي ما يعادل حوالي واحد من الألف من كمية البيانات المستخدمة في النماذج التقليدية من نفس الحجم. أظهرت الاختبارات الرسمية أنه يمكن تدريب نسخة 1B من الصفر باستخدام خادمين من نوع H100 بـ 8 بطاقات كل منهما، خلال حوالي 46 ساعة بتكلفة حوسبة تبلغ حوالي 1472 دولارًا أمريكيًا؛ بينما تتطلب نسخة 0.6B فقط عقدة واحدة تعمل لمدة 50 ساعة بتكلفة أجهزة تبلغ حوالي 800 دولار أمريكي. وقد تم إطلاق الإطار الهندسي الكامل المتكامل، والذي يشمل استخراج البيانات، وتعبئة التسلسل، والتدريب الموزع باستخدام PyTorch، كمصدر مفتوح. يعتمد الدعم لخفض التكلفة بشكل جذري على تصميم حلقي متعدد مقاييس الزمن (Dual-timescale recurrent) الفريد. يحتوي النموذج على وحدتي Transformer منفصلتين: واحدة سريعة (منخفضة المستوى) وأخرى بطيئة (عالية المستوى). تعمل هاتان الوحدتان بالتناوب على نفس مجموعة المدخلات، وتبادلان المعلومات من خلال جمع الحالة. يسمح هذا التصميم للنموذج بتوسيع عمق الحساب ديناميكيًا عبر زيادة عدد التكرارات، مع الحفاظ على إجمالي عدد المعلمات الفيزيائية ثابتًا. إن الانخفاض الحاد في عتبة التدريب الأساسي يفتح فرصًا جديدة للتحقق من نظريات النماذج التي كانت قد أُرجئت سابقًا بسبب تكلفة الحوسبة المرتفعة. يجب الانتباه إلى أن الإصدار المُطلق حاليًا هو أوزان تدريبية خام غير مُحاذاة، ولا يمكن للنموذج تنفيذ سوى مهام استكمال البادئة، ولا يمكن استخدامه مباشرة كمساعد للإجابة على الأسئلة. (المصدر: BlockBeats)