رسالة AIMPACT، 19 مايو (UTC+8)، وفقًا لمراقبة Beating، أطلقت Sapient Intelligence نموذجًا أساسيًا للإنشاء النصي بحجم 1 مليار معلمة (1B) يُسمى HRM-Text. إنه نموذج تدريبي خالص مبني على هندسة نموذج الاستدلال الهرمي (HRM). من خلال إدخال استدلال في الفضاء الكامن في الطبقات السفلية من الهيكل، قلل هذا النموذج استهلاك قوة الحوسبة للتدريب الأساسي من 130 إلى 600 مرة. على وجه التحديد، أكمل HRM-Text التدريب الأساسي باستخدام 40 مليار (40B) رمز منظم فقط، أي ما يعادل حوالي واحد من الألف من كمية البيانات المستخدمة في النماذج التقليدية من نفس الحجم. أظهرت الاختبارات الرسمية أنه يمكن تدريب نسخة 1B من الصفر باستخدام خادمين من نوع H100 بـ 8 بطاقات كل منهما، خلال حوالي 46 ساعة بتكلفة حوسبة تبلغ حوالي 1472 دولارًا أمريكيًا؛ بينما تتطلب نسخة 0.6B فقط عقدة واحدة تعمل لمدة 50 ساعة بتكلفة أجهزة تبلغ حوالي 800 دولار أمريكي. وقد تم إطلاق الإطار الهندسي الكامل المتكامل، والذي يشمل استخراج البيانات، وتعبئة التسلسل، والتدريب الموزع باستخدام PyTorch، كمصدر مفتوح. يعتمد الدعم لخفض التكلفة بشكل جذري على تصميم حلقي متعدد مقاييس الزمن (Dual-timescale recurrent) الفريد. يحتوي النموذج على وحدتي Transformer منفصلتين: واحدة سريعة (منخفضة المستوى) وأخرى بطيئة (عالية المستوى). تعمل هاتان الوحدتان بالتناوب على نفس مجموعة المدخلات، وتبادلان المعلومات من خلال جمع الحالة. يسمح هذا التصميم للنموذج بتوسيع عمق الحساب ديناميكيًا عبر زيادة عدد التكرارات، مع الحفاظ على إجمالي عدد المعلمات الفيزيائية ثابتًا. إن الانخفاض الحاد في عتبة التدريب الأساسي يفتح فرصًا جديدة للتحقق من نظريات النماذج التي كانت قد أُرجئت سابقًا بسبب تكلفة الحوسبة المرتفعة. يجب الانتباه إلى أن الإصدار المُطلق حاليًا هو أوزان تدريبية خام غير مُحاذاة، ولا يمكن للنموذج تنفيذ سوى مهام استكمال البادئة، ولا يمكن استخدامه مباشرة كمساعد للإجابة على الأسئلة. (المصدر: BlockBeats)
يُصدر Sapient نموذج HRM-Text بـ 1 مليار معلمة بتكلفة تدريب أقل بـ 1,300 مرة
KuCoinFlashمشاركة






أصدرت Sapient Intelligence خبراً على السلسلة في 19 مايو (UTC+8)، وفتحت مصدر نموذج النص HRM-Text الذي يحتوي على مليار معلمة مع بنية استدلال هرمية. يستخدم النموذج الاستدلال في فضاء الكامن لتقليل تكاليف التدريب المسبق بمقدار 130 إلى 600 مرة. تم تدريبه على 40 مليار رمز منظم، وهي نسبة ضئيلة من البيانات المستخدمة في النماذج المشابهة. يمكن تدريب النسخة بحجم مليار معلمة في 46 ساعة بتكلفة 1,472 دولارًا باستخدام خادمين من نوع H100 بثمانية وحدات معالجة رسومية (GPU) لكل منهما. وتبلغ تكلفة النسخة بحجم 0.6 مليار معلمة 800 دولار. كما تم فتح مصدر الإطار الهندسي الكامل، بما في ذلك استخراج البيانات وتدريب PyTorch. وتشمل أبرز ميزات هذا الإصدار بيانات التضخم وكفاءة التدريب.
المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.