source avatarDavid Arnal

بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy

سالوں کا سب سے تفصیلی ایفرونٹیئر LLM ٹریننگ رپورٹ۔ مائیکروسافٹ نے اپنے ریزننگ فوکسڈ ماڈل MAI-Thinking-1 کا ایک گہرا ٹیکنیکل تجزیہ جاری کیا ہے: • 35B فعال / 1T کل پیرامیٹر MoE • 256k کانٹیکسٹ ونڈو (~600 صفحات کا دستاویز) • 8,000 GB200 GPU کے کلسٹر پر ٹرینڈ کیا گیا دلچسپ بات: یہ نئی آرکیٹیکچر پر زیادہ توجہ نہیں دی گئی، بلکہ ڈیٹا کی معیار اور ٹریننگ ریسیپی پر۔ یہی وہ جگہ ہے جہاں ایفرونٹیئر ماڈل کا زیادہ تر فائدہ منتقل ہو رہا ہے۔ اسے اوپن سورس نہیں کیا جا رہا، لیکن مائیکروسافٹ API کے ذریعے فائن ٹیوننگ فراہم کرنے کا منصوبہ رکھتا ہے۔ اگر مزید بڑے ٹیک لیبز اس سطح کی تفصیلات دوبارہ شیئر کرنے لگے، تو ریسرچرز اور بانیوں کو اصل میں کیا اہم ہے، اس کا واضح تصور ملے گا۔ کیا آپ کو لگتا ہے کہ اگلے بڑے فائدے بہتر آرکیٹیکچرز سے آئینگے—یا بہتر ڈیٹا اور ٹریننگ پائپ لائنز سے؟

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔