Nous Research تُصدر Lighthouse Attention مفتوحة المصدر، وتحقق زيادة في السرعة تبلغ 17 ضعفًا على B200

رسالة AIMPACT، في 16 مايو (UTC+8)، وفقًا لمراقبة Beating، أصدرت Nous Research آلية Lighthouse Attention للتدريب المسبق طويل السياق كمصدر مفتوح. عند معالجة نص بطول 512K على بطاقة B200 واحدة، تكون سرعة الحساب لهذه الخطة أسرع بحوالي 17 مرة مقارنة بالآليات التقليدية، وتحقق تسريعًا في التدريب من البداية إلى النهاية يتراوح بين 1.4 إلى 1.7 مرة عند طول 98K. تتطلب آليات الانتباه التقليدية حساب العلاقات المزدوجة بين جميع الكلمات، مما يؤدي إلى زيادة هائلة في استهلاك قوة الحوسبة بشكل تربيعي مع طول النص. تعتمد Lighthouse Attention على فكرة الفحص الأولي ثم الحساب الدقيق. فهي تتصفح أولاً ملخصات مضغوطة للنص على مستويات مختلفة، وتختار القطع الأساسية بناءً على التقييم لتكوين نص قصير، ثم ترسله مباشرة إلى وحدة FlashAttention الفعالة الجاهزة. وبما أن منطق التصفية تم فصله تمامًا عن النواة، فإن المطورين يوفرون جهد كتابة الكود الأساسي يدويًا، ولا يحتاجون إلى إضافة أهداف تدريب إضافية. غالبًا ما كانت الحلول المتسارعة السابقة التي اعتمدت على أفكار مشابهة تُسبب آثارًا جانبية، حيث يفقد النموذج بسهولة قدرته الأصلية على القراءة الدقيقة لكل كلمة بعد اعتياده على القراءة المتقطعة. لتجنب هذه الفخاخ، جعل فريق التطوير النموذج يمر بمعظم عملية التدريب باستخدام وضع التسريع، ثم يعود مؤقتًا إلى حساب الانتباه الكامل التقليدي في نهاية التدريب للتكيف قليلاً. في التجارب العملية على نموذج بحجم 530 مليون معلمة، مع تغذية بيانات تدريب بـ 50 مليار Token، أظهر النموذج المُدرَّب بهذه الطريقة ليس فقط تقليلًا كبيرًا في الوقت المستهلك، بل أيضًا أداءً نهائيًا يوازي أو حتى يتفوق على الإصدار الأساسي الذي تم تدريبه بالكامل باستخدام الطريقة التقليدية. (المصدر: BlockBeats)