Metode Baru Memperkirakan GPT-5.5 pada 9,7T, Grok-4 pada 3,2T

Pesan AIMPACT, 30 April (UTC+8), menurut pemantauan Beating, ilmuwan utama Pine AI, Li Bojie, menerbitkan makalah berjudul "Incompressible Knowledge Probes: Estimating Parameter Counts of Black-Box Large Language Models Based on Fact Capacity", yang memperkirakan jumlah parameter model bahasa besar tertutup dengan menggunakan 1.400 soal pengetahuan umum yang jarang diketahui. Karena mengingat satu fakta memerlukan ruang parameter, semakin banyak fakta langka yang dijawab benar oleh model, semakin tidak mungkin jumlah parameternya sedikit. Ia terlebih dahulu menggunakan 89 model open-source dengan jumlah parameter yang diketahui untuk membuat kurva fitting yang sangat akurat, lalu memetakan skor jawaban model tertutup ke kurva tersebut untuk membaca estimasi jumlah parameternya. Makalah ini menguji 92 model tertutup; angka-angka tersebut bukan nilai tepat, misalnya model yang diperkirakan 9,7T sebenarnya mungkin berada di rentang 3T hingga 29T, tetapi peringkat relatif dan skala tetap memiliki nilai referensi: GPT-5.5 sekitar 9,7T, unggul jauh, hampir dua kali lipat dari peringkat kedua, Claude Opus 4.6 (sekitar 5,3T). Kelompok kedua, 3 hingga 4T, sangat padat: GPT-5 sekitar 4,1T, Claude Opus 4.7 sekitar 4,0T, o1 sekitar 3,5T, Grok-4 sekitar 3,2T, o3 sekitar 3,0T. Tiga perusahaan utama—OpenAI, Anthropic, dan xAI—berada dalam rentang 1,4 kali lipat. Kelompok ketiga, 1 hingga 2T, model mid-tier unggulan: GPT-4.1 sekitar 2,2T, Claude Sonnet 4.6 sekitar 1,7T, Gemini 2.5 Pro sekitar 1,2T. Model-model kecil di dasar berkisar dari sekitar 720B pada GPT-4o hingga sekitar 65B pada Claude Haiku 4.5. Model dasar GPT-5 sendiri diperkirakan sekitar 4,1T, tetapi versi .x selanjutnya (5.1 hingga 5.4) justru menurunkan kapasitas penyimpanan fakta menjadi 1,0 hingga 1,5T, baru pada GPT-5.5 yang melonjak ke sekitar 9,7T mencapai terobosan nyata. Makalah ini juga menyajikan verifikasi cerdas: membandingkan apakah dua model membuat kesalahan yang sama pada soal-soal langka. Setiap pembaruan .x dari GPT-5 membuat kesalahan yang berbeda (tingkat kesamaan di bawah 0,08), menunjukkan bahwa setiap versi dilatih dari awal, bukan hanya fine-tuning dari bobot yang sama. Parameter Claude Opus meningkat dari 1,4T pada generasi ke-4 menjadi 4,0T pada generasi ke-4.7, tetapi bukan hasil fine-tuning bertahap: kesalahan antara generasi 4 dan 4.1 hampir identik (konfirmasi sebagai fine-tuning dari dasar yang sama); kesalahan antara generasi 4.6 dan 4.7 tidak tumpang tindih sama sekali (tingkat kesamaan turun menjadi 0), sehingga flagship terbaru juga merupakan hasil pelatihan ulang. Pada model MoE (Mixture of Experts), total parameter—bukan parameter yang diaktifkan saat inferensi—yang dapat memprediksi kapasitas pengetahuan. Makalah ini juga menemukan bahwa model dengan ukuran sama, baik yang baru maupun dua tahun lalu, mengingat jumlah fakta langka yang sama; kemampuan inferensi bisa terus ditingkatkan, tetapi penyimpanan fakta tidak bisa ditekan lebih rendah. Paket alat evaluasi dan seluruh data telah dirilis secara open-source. (Sumber: BlockBeats)