طريقة تدريب TST من Nous Research تثير جدلاً بسبب التشابه مع العمل السابق

iconKuCoinFlash
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
كشفت Nous Research عن إصدار رمز جديد مع أسلوبها الجديد لتدريب تجميع الرموز (TST) في 14 مايو (UTC+8)، مدعية أنه يقلل وقت التدريب المسبق بمقدار مرتين إلى ثلاث مرات تحت نفس الحمل الحسابي. يعتمد الأسلوب على تجميع الرموز المجاورة أثناء التدريب المبكر والتنبؤ بحزم الرموز بدلاً من الرموز الفردية. لاحظ المنتقدون بسرعة أوجه التشابه بين TST وورقة عام 2024 بعنوان "Beyond Next Token Prediction". واعترف الفريق بالتشابه كـ"بحث متزامن غير مرغوب فيه" وتعهد بإضافة الاستشهادات المناسبة. غالبًا ما تجذب إدراجات الرموز الجديدة المراجعة، وهذه الحالة ليست استثناءً.

أخبار ME، في 14 مايو (UTC+8)، وفقًا لمراقبة Beating، أطلقت Nous Research خطة جديدة للتدريب المسبق للنماذج الكبيرة تُسمى تدريب تراكب الرموز (TST). تتيح هذه الخطة، من خلال تجميع وضغط الرموز المتجاورة في مراحل التدريب المبكرة، تقليل وقت التدريب المسبق بمقدار 2 إلى 3 أضعاف مع نفس كمية الحساب. تتكون TST من مرحلتين. خلال أول 20% إلى 40% من التدريب، لا يقرأ النموذج الرموز واحدة تلو الأخرى، بل يجمع الرموز المتجاورة "في حزمة" ويحسب متوسطها كمدخل، ثم يتوقع في المخرجات أي رموز ستكون موجودة في الحزمة التالية (بدون اعتبار للترتيب الداخلي). بعد ذلك، يعود النموذج إلى التنبؤ التقليدي بالرمز التالي. وبما أن البنية الأساسية لم تُعدَّل، فإن النموذج الناتج متطابق تمامًا مع النماذج التقليدية أثناء الاستدلال. تم التحقق من هذه الطريقة على نماذج MoE تصل إلى 10 مليارات معلمة. جوهر هذه الخطة هو "استبدال البيانات بالقوة الحسابية"، حيث يتم تحقيق تقصير في وقت الحساب عبر استهلاك أسرع للنصوص. ومع ذلك، إذا نفدت النصوص عالية الجودة في المستقبل، فقد تصبح ميزة استهلاك البيانات السريع عائقًا. بالإضافة إلى ذلك، بعد ساعات من نشر الورقة، أشار قارئ إلى أن آلية TST تشبه بشكل كبير ورقة قديمة نُشرت في عام 2024 بعنوان "Beyond Next Token Prediction". واعترف فريق المؤلفين لاحقًا على Hugging Face بأن هذا "تقارب غير مرغوب فيه في البحث"، وتعهدوا بتحديث الورقة وإضافة الاستشهادات المناسبة. (المصدر: BlockBeats)

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.