Kaedah Baharu Menganggarkan GPT-5.5 pada 9.7T, Grok-4 pada 3.2T

Pesan AIMPACT, 30 April (UTC+8), menurut pemantauan Beating, ilmuwan utama Pine AI, Li Bojie, menerbitkan makalah berjudul “Incompressible Knowledge Probes: Estimating Parameter Counts of Black-Box Large Language Models Based on Fact Capacity”, yang menggunakan 1.400 soal pengetahuan umum yang jarang diketahui untuk memperkirakan jumlah parameter dalam model bahasa besar tertutup. Karena mengingat satu fakta memerlukan ruang parameter, semakin banyak fakta langka yang dijawab benar oleh model, semakin tidak mungkin jumlah parameternya sedikit. Ia terlebih dahulu menggunakan 89 model open-source dengan jumlah parameter yang diketahui untuk menghasilkan kurva fitting yang sangat akurat, lalu memetakan skor jawaban model tertutup ke kurva tersebut untuk membaca estimasi jumlah parameternya. Makalah ini menguji 92 model tertutup; angka-angka tersebut bukan nilai tepat—misalnya, model yang diperkirakan 9,7T sebenarnya mungkin berada di antara 3T hingga 29T—tetapi peringkat relatif dan skala tetap memiliki nilai referensi: GPT-5.5 sekitar 9,7T, unggul jauh, hampir dua kali lipat dari posisi kedua, Claude Opus 4.6 (sekitar 5,3T). Kelompok kedua, 3 hingga 4T, sangat padat: GPT-5 sekitar 4,1T, Claude Opus 4.7 sekitar 4,0T, o1 sekitar 3,5T, Grok-4 sekitar 3,2T, o3 sekitar 3,0T. Tiga perusahaan utama—OpenAI, Anthropic, dan xAI—memiliki model unggulan mereka berada dalam rentang 1,4 kali lipat. Kelompok ketiga, 1 hingga 2T, model unggulan menengah: GPT-4.1 sekitar 2,2T, Claude Sonnet 4.6 sekitar 1,7T, Gemini 2.5 Pro sekitar 1,2T. Model-model kecil di dasar berkisar dari sekitar 720B pada GPT-4o hingga sekitar 65B pada Claude Haiku 4.5. Model dasar GPT-5 sendiri diperkirakan sekitar 4,1T, tetapi versi .x selanjutnya (5.1 hingga 5.4) justru menurunkan kapasitas penyimpanan fakta menjadi 1,0 hingga 1,5T, baru pada GPT-5.5 yang melonjak ke sekitar 9,7T mencapai terobosan nyata. Makalah ini juga menyajikan verifikasi cerdas: membandingkan apakah dua model membuat kesalahan yang sama pada soal-soal langka. Setiap peningkatan .x pada GPT-5 menghasilkan kesalahan yang berbeda (tingkat kesamaan di bawah 0,08), menunjukkan bahwa setiap versi dilatih dari awal, bukan hanya fine-tuning dari bobot yang sama. Parameter Claude Opus meningkat dari 1,4T pada generasi ke-4 menjadi 4,0T pada generasi ke-4.7, tetapi bukan hasil fine-tuning bertahap: kesalahan antara generasi 4 dan 4.1 hampir identik (konfirmasi sebagai fine-tuning dari fondasi yang sama); kesalahan antara generasi 4.6 dan 4.7 tidak tumpang tindih sama sekali (tingkat kesamaan turun menjadi 0), sehingga model unggulan terbaru juga merupakan hasil pelatihan ulang. Pada model MoE (Mixture of Experts), total parameter—bukan parameter yang diaktifkan saat inferensi—yang dapat memprediksi kapasitas pengetahuan. Makalah ini juga menemukan bahwa model dengan ukuran sama, baik yang baru maupun yang dibuat dua tahun lalu, mengingat jumlah fakta langka yang sama; kemampuan inferensi bisa terus ditingkatkan, tetapi penyimpanan fakta tidak bisa ditekan lebih rendah. Paket alat evaluasi dan seluruh data telah dirilis secara open-source. (Sumber: BlockBeats)