نیا طریقہ GPT-5.5 کو 9.7T اور Grok-4 کو 3.2T پر تخمہ لگاتا ہے

AIMPACT کا پیغام، 30 اپریل (UTC+8)، Beating کی نگرانی کے مطابق، پائن AI کے سربراہ سائنسدان لی بوجیہ نے ایک تحقیقی مقالہ "ناقابلِ دباؤ علمی جانچ: حقائق کی صلاحیت کے بنیاد پر بکس بڑے زبان ماڈل کے پیرامیٹرز کا اندازہ لگانا" شائع کیا ہے، جس میں 1400 سرد معلومات کے سوالات کا استعمال کرتے ہوئے بند ماڈلز کے پیرامیٹرز کا اندازہ لگایا گیا۔ چونکہ ایک حقیقت کو یاد رکھنا پیرامیٹر کی جگہ لیتا ہے، اس لیے جتنا زیادہ نایاب حقائق ماڈل درست طریقے سے جواب دے گا، اتنے ہی زیادہ پیرامیٹرز ہونے کا امکان ہوگا۔ اس نے پہلے 89 ایسے کھلے ماڈلز جن کے پیرامیٹرز معلوم تھے، کو لے کر ایک فٹنگ کریو بنائی جس کا فٹنگ بہت اچھا تھا، پھر بند ماڈلز کے جوابات کو اس پر ڈال کر متعلقہ پیرامیٹرز کا اندازہ لگایا۔ مقالہ میں 92 بند ماڈلز کا جائزہ لیا گیا، جن کے اعداد و شمار درست نہیں ہیں؛ مثلاً 9.7T کا اندازہ لگایا گیا، جبکہ حقیقی عدد 3T سے 29T تک ہو سکتا ہے، لیکن نسبتی درجہ بندی اور سائز کا اندازہ اب بھی مفید ہے: GPT-5.5 تقریباً 9.7T، جو دوسرے نمبر پر موجود Claude Opus 4.6 (تقریباً 5.3T) سے تقریباً دوگنا ہے۔ دوسرے درجے میں 3 سے 4T کا زبردست مجموعہ: GPT-5 تقریباً 4.1T، Claude Opus 4.7 تقریباً 4.0T، o1 تقریباً 3.5T، Grok-4 تقریباً 3.2T، o3 تقریباً 3.0T۔ OpenAI، Anthropic اور xAI کے سب سے بڑے ماڈلز صرف 1.4 گنا تک محدود ہیں۔ تیسرے درجے میں 1 سے 2T کے درمیان وسطی سربراه: GPT-4.1 تقریباً 2.2T، Claude Sonnet 4.6 تقریباً 1.7T، Gemini 2.5 Pro تقریباً 1.2T۔ نچلے درجے کے چھوٹے ماڈلز GPT-4o کے تقریباً 720B سے شروع ہوکر Claude Haiku 4.5 کے تقریباً 65B تک جاتے ہیں۔ GPT-5 کا بنیادی ماڈل تقریباً 4.1T اندازہ لگایا گیا، لیکن بعد والے .x ورژن (5.1 سے 5.4) میں حقائق کا ذخیرہ کم ہوکر صرف 1.0 سے 1.5T رہ گیا، جبکہ GPT-5.5 میں تقریباً 9.7T تک پہنچ کر حقیقی طور پر اضافہ ہوا۔ مقالہ میں ایک ذکاوت بھری تصدیق بھی شامل ہے: دو ماڈلز کو نایاب سوالات پر اس طرح موازنہ کرنا کہ وہ اسی غلطی پر قائم رہتے ہیں۔ GPT-5 کا ہر .x اپگرید مختلف غلطیاں کرتا رہا (相似度 تمام صفر سے نچلے)، جس سے ثابت ہوتا ہے کہ ہر ورژن نئے سرے سے تربیت دیا گيا ماڈل تھا، نہ کہ اسی وزن پر فائنٹننگ۔ Claude Opus کے پیرامیٹرز 4th جینریشن میں 1.4T سے بڑھ کر 4.7th جینریشن میں 4.0T ہوگئے، لیکن وہ مستقل فائنٹننگ نہ تھا: 4 سے 4.1 تک غلطیاں تقریباً بالکل ایدنتک رہیں، جس سے ثابت ہوتا ہے کہ وہ اسی بنیاد پر فائنٹنڈ تھا؛ جبکہ 4.6 سے 4.7 تک غلطیاں بالکل نئيں تھيں (相似度 صفر)، جس سے ثابت ہوتا ہے کہ نئاترین سربراه بھي نئي سرے سے تربت ديا جانا۔ MoE (مکسڈ اسپرٹس) ماڈلز ميں، کل پیرامٹرز، نه صرف استعمال شدہ پيرامٹرز، علمي صلاحية كي پيش بيني كرتين هين۔ مقاله ميں يه بھي پايى جاتا هе كه، دونوں موجوده اور دو سال قبل كे ماڈلز كى اسى سائز كى حالت ميں، نایاب حقائق كى اسى مقدار كو ياد رکھتى هين، استدلالي صلاحية زوردار طور پر بڑھ سکتى هين، لेकن حقائق ذخیرہ رکھنا نئيں روکا جاسکتا۔ جانچنے والا اوزار اور تمام مواد خودکار طور پر شائع کردئے جاچکے ہيں۔ (ذرائع: BlockBeats)