رسالة AIMPACT، في 16 مايو (UTC+8)، وفقًا لمراقبة Beating، أصدرت Nous Research آلية Lighthouse Attention للتدريب المسبق طويل السياق كمصدر مفتوح. عند معالجة نص بطول 512K على بطاقة B200 واحدة، تكون سرعة الحساب لهذه الخطة أسرع بحوالي 17 مرة مقارنة بالآليات التقليدية، وتحقق تسريعًا في التدريب من البداية إلى النهاية يتراوح بين 1.4 إلى 1.7 مرة عند طول 98K. تتطلب آليات الانتباه التقليدية حساب العلاقات المزدوجة بين جميع الكلمات، مما يؤدي إلى زيادة هائلة في استهلاك قوة الحوسبة بشكل تربيعي مع طول النص. تعتمد Lighthouse Attention على فكرة الفحص الأولي ثم الحساب الدقيق. فهي تتصفح أولاً ملخصات مضغوطة للنص على مستويات مختلفة، وتختار القطع الأساسية بناءً على التقييم لتكوين نص قصير، ثم ترسله مباشرة إلى وحدة FlashAttention الفعالة الجاهزة. وبما أن منطق التصفية تم فصله تمامًا عن النواة، فإن المطورين يوفرون جهد كتابة الكود الأساسي يدويًا، ولا يحتاجون إلى إضافة أهداف تدريب إضافية. غالبًا ما كانت الحلول المتسارعة السابقة التي اعتمدت على أفكار مشابهة تُسبب آثارًا جانبية، حيث يفقد النموذج بسهولة قدرته الأصلية على القراءة الدقيقة لكل كلمة بعد اعتياده على القراءة المتقطعة. لتجنب هذه الفخاخ، جعل فريق التطوير النموذج يمر بمعظم عملية التدريب باستخدام وضع التسريع، ثم يعود مؤقتًا إلى حساب الانتباه الكامل التقليدي في نهاية التدريب للتكيف قليلاً. في التجارب العملية على نموذج بحجم 530 مليون معلمة، مع تغذية بيانات تدريب بـ 50 مليار Token، أظهر النموذج المُدرَّب بهذه الطريقة ليس فقط تقليلًا كبيرًا في الوقت المستهلك، بل أيضًا أداءً نهائيًا يوازي أو حتى يتفوق على الإصدار الأساسي الذي تم تدريبه بالكامل باستخدام الطريقة التقليدية. (المصدر: BlockBeats)
Nous Research تُصدر Lighthouse Attention مفتوحة المصدر، وتحقق زيادة في السرعة تبلغ 17 ضعفًا على B200
KuCoinFlashمشاركة






أفادت منصة الأخبار على السلسلة MetaEra في 16 مايو (UTC+8) أن Nous Research قد فتحت مصدر آلية Lighthouse Attention للتدريب المسبق على السياقات الطويلة. وتُقدّم هذه الطريقة حسابًا أسرع بـ 17 مرة على وحدة B200 GPU واحدة للنصوص بطول 512K، وسرعة تدريب تتراوح بين 1.4 و1.7 مرة بطول 98K. وتستخدم عملية مكونة من خطوتين لتجنب البرمجة من المستوى المنخفض أو أهداف تدريب إضافية. وفي الاختبارات، حقق نموذج بـ 530 مليون معلمة تم تدريبه على 50 مليار رمز أداءً مماثلًا أو أفضل من الطرق التقليدية مع تقليل وقت التدريب. وتُبرز منصات الأخبار المشفرة المكاسب الكبيرة في الكفاءة للمطورين والباحثين.
المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.