Yeni Yöntem, GPT-5.5'i 9,7T ve Grok-4'ü 3,2T olarak tahmin ediyor

AIMPACT Mesajı, 30 Nisan (UTC+8), Beating izleme sistemine göre, Pine AI'nin baş bilim insanı Li Bojie, "Sıkıştırılamaz Bilgi Probları: Gerçek Kapasitesi Tahminiyle Kara Kutu Büyük Dil Modellerinin Parametre Sayısının Geri Çekilmesi" adlı bir makale yayımladı ve 1.400 adet nadir bilgi sorusu kullanarak kapalı kaynak modellerin parametre sayısını tersine mühendislik yoluyla belirledi. Bir gerçek hatırlamak parametre alanını tüketir; model ne kadar çok nadir gerçek doğru cevap verirse, parametre sayısı o kadar az olamaz. Öncelikle 89 adet parametre sayısı bilinen açık kaynak modeli kullanarak yüksek bir uyum sağlayacak bir uyum eğrisi çizen yazar, kapalı kaynak modellerin cevap puanlarını bu eğriye yerleştirerek karşılık gelen parametre sayısını okudu. Makalede 92 adet kapalı kaynak model incelendi; sayılar kesin değerler değil, örneğin 9,7T olarak tahmin edilen bir modelin gerçek değeri 3T ile 29T arasında olabilir, ancak göreli sıralama ve ölçek hala referans değeri taşır: GPT-5.5 yaklaşık 9,7T ile keskin bir şekilde birinci sırada ve ikinci sırada yer alan Claude Opus 4.6'nın (yaklaşık 5,3T) neredeyse iki katıdır. İkinci kategoride 3 ile 4T arasında yoğunlaşma var: GPT-5 yaklaşık 4,1T, Claude Opus 4.7 yaklaşık 4,0T, o1 yaklaşık 3,5T, Grok-4 yaklaşık 3,2T, o3 yaklaşık 3,0T. OpenAI, Anthropic ve xAI'nin lider modelleri 1,4 katlık bir aralıkta toplanmıştır. Üçüncü kategoride 1 ile 2T arası orta düzey liderler: GPT-4.1 yaklaşık 2,2T, Claude Sonnet 4.6 yaklaşık 1,7T, Gemini 2.5 Pro yaklaşık 1,2T. Alt katman küçük modeller GPT-4o'nun yaklaşık 720B'den Claude Haiku 4.5'in yaklaşık 65B'ye kadar inmektedir. GPT-5 temel modeli yaklaşık 4,1T olarak tahmin edilir; ancak sonraki .x sürümleri (5.1 ila 5.4) gerçek depolama kapasitesi 1,0 ila 1,5T'ye düşer ve GPT-5.5'in yaklaşık 9,7T'ye sıçramasıyla gerçek bir atlamayı gerçekleştirir. Makaledeki bir başka zekâca doğrulama: İki modelin nadir sorularda aynı hatayı yapıp yapmadığını karşılaştırmaktır. GPT-5'in her .x yükseltmesinde yapılan hatalar farklıdır (benzerlik oranı her zaman %0,08'in altındadır), bu da her sürümün yeni bir model olarak eğitildiğini ve aynı ağırlık seti üzerinde ince ayar yapılmadığını gösterir. Claude Opus'un parametre sayısı 4. nesilden 1,4T'ye çıkarak 4.7 nesilde 4,0T'ye ulaşır; ancak bu artış sürekli ince ayarla gerçekleşmez: 4 ile 4.1 arasında yapılan hatalar neredeyse tamamen aynıdır ve aynı temel üzerinde ince ayar yapıldığı doğrulanır; 4.6 ile 4.7 arasında yapılan hatalar tamamen çakışmaz (benzerlik %0'a düşer), en yeni lider de yeniden eğitilmiş bir üründür. MoE (Karışık Uzmanlar) modellerinde, her çıkarım sırasında etkinleşen parametre değil toplam parametre sayısı bilgi kapasitesini tahmin edebilir. Makale ayrıca aynı boyutta olan modellerin — ne kadar yeni olursa olsun — aynı miktarda nadir bilgiyi hatırladığını keşfetti; çıkarım yeteneği geliştirilebilir ama gerçek depolama kapasitesi azaltılamaz. Değerlendirme paketi ve tüm veriler açık kaynak olarak paylaşılmıştır. (Kaynak: BlockBeats)