नया तरीका GPT-5.5 को 9.7T और Grok-4 को 3.2T पर अनुमानित करता है

AIMPACT संदेश, 30 अप्रैल (UTC+8), Beating द्वारा निगरानी के अनुसार, Pine AI के मुख्य वैज्ञानिक ली बोजिए ने पेपर "अनकम्प्रेसिबल ज्ञान प्रोब: फैक्ट कैपेसिटी अनुमान के आधार पर ब्लैक-बॉक्स लार्ज लैंग्वेज मॉडल के पैरामीटर की संख्या का अनुमान" प्रकाशित किया, जिसमें 1400 अज्ञात तथ्यों के प्रश्नों का उपयोग करके बंद स्रोत मॉडल के पैरामीटर की संख्या का पता लगाया गया। चूंकि एक तथ्य को याद रखने के लिए पैरामीटर स्थान की आवश्यकता होती है, इसलिए जितने अधिक अज्ञात तथ्यों के उत्तर मॉडल सही ढंग से देता है, उतने ही अधिक पैरामीटर होने की संभावना होती है। उन्होंने पहले 89 खुले स्रोत मॉडलों के पैरामीटर संख्या के साथ एक फिटिंग कर्व बनाया, जिसकी सुसंगति बहुत अच्छी थी, फिर बंद स्रोत मॉडलों के स्कोर को इस पर प्लॉट किया और संबंधित पैरामीटर संख्या पढ़ी। पेपर में 92 बंद स्रोत मॉडलों का मूल्यांकन किया गया, जिनके परिणाम सटीक मान नहीं हैं; उदाहरण के लिए, 9.7T का अनुमानित मॉडल वास्तव में 3T से 29T के बीच हो सकता है, लेकिन सापेक्ष रैंकिंग और मापदंडों का महत्वपूर्ण संदर्भ है: GPT-5.5 लगभग 9.7T है, जो स्पष्ट रूप से पहले स्थान पर है, लगभग दूसरे स्थान पर Claude Opus 4.6 (लगभग 5.3T) का दोगुना है। दूसरी प्रमुख 3 से 4T के समूह में: GPT-5 लगभग 4.1T, Claude Opus 4.7 लगभग 4.0T, o1 लगभग 3.5T, Grok-4 लगभग 3.2T, o3 लगभग 3.0T। OpenAI, Anthropic, xAI के प्रमुख मॉडल 1.4x के सीमा के भीतर समूहित हैं। तीसरी प्रमुख 1 से 2T मध्यम-स्तरीय प्रमुख मॉडल: GPT-4.1 लगभग 2.2T, Claude Sonnet 4.6 लगभग 1.7T, Gemini 2.5 Pro लगभग 1.2T। सबसे कम प्रमुख मॉडल GPT-4o के लगभग 720B से Claude Haiku 4.5 के लगभग 65B तक हैं। GPT-5 का मूल मॉडल लगभग 4.1T है, लेकिन .x संस्करण (5.1 से 5.4) में तथ्य संग्रहण क्षमता 1.0 से 1.5T पर कम हो गई, जबकि GPT-5.5 में 9.7T पर पहुँचकर ही सचमुच क्रांति हुई। पेपर में एक सुंदर प्रमाणण है: दो मॉडलों की अज्ञात प्रश्नों पर समान गलतियों की तुलना। GPT-5 के हर .x सुधार में हुईं गलतियाँ (समानता <0.08) सभी alag-alag हैं, जिससे पता चलता है कि प्रत्येक संस्करण पूरी तरह से नए मॉडल हैं, पुराने वज़नों पर सूक्ष्म-समायोजन (fine-tuning) नहीं। Claude Opus के पैरामीटर 4वें संस्करण (1.4T) से 4.7वें (4.0T) में हुए, परन्तु सभी सुधारों में fine-tuning हुआ ही नहीं: 4 से 4.1 में हुईं गलतियाँ मुख्यतः समान हैं, पुष्टि हुई कि yही base model पर fine-tuning हुआ; 4.6 से 4.7 में हुईं गलतियाँ पूरी तरह से non-overlapping (समानता = 0) हैं, सबसे हालिया प्रमुख मॉडल bhi naye se train kiya gaya hai। MoE (Mixture of Experts) मॉडल में, कुल पैरामीटर (और not inference time me activate hote huye parameters) hi knowledge capacity ko predict kar sakte hain। पेपर में पाया गया कि, same size ke model—chahe aaj ka ho ya do saal pehle ka—same number of obscure facts yaad rakhte hain; reasoning capability improve ho sakti hai, lekin fact storage ko reduce nahi kiya ja sakta। Evaluation toolkit aur saare data open-source kar diye gaye hain। (Source: BlockBeats)