Kaedah Baharu Menganggarkan GPT-5.5 pada 9.7T, Grok-4 pada 3.2T

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Kekhawatiran CFT meningkat kerana satu kertas kerja baru menganggarkan GPT-5.5 pada 9.7T parameter, Grok-4 pada 3.2T. Li Bojie daripada Pine AI menggunakan 1,400 soalan fakta untuk menilai kapasiti memori, membandingkan model sumber tertutup dengan lengkung daripada 89 model sumber terbuka. Kajian ini menunjukkan GPT-5.5 hampir dua kali ganda lebih besar berbanding Claude Opus 4.7 di tempat kedua. Kaedah ini menonjolkan risiko terhadap aset risiko-tinggi jika model yang lebih besar membolehkan risiko sistemik yang lebih tinggi. Sesetengah model telah dilatih semula dari awal, bukan hanya fine-tuned.

Pesan AIMPACT, 30 April (UTC+8), menurut pemantauan Beating, ilmuwan utama Pine AI, Li Bojie, menerbitkan makalah berjudul “Incompressible Knowledge Probes: Estimating Parameter Counts of Black-Box Large Language Models Based on Fact Capacity”, yang menggunakan 1.400 soal pengetahuan umum yang jarang diketahui untuk memperkirakan jumlah parameter dalam model bahasa besar tertutup. Karena mengingat satu fakta memerlukan ruang parameter, semakin banyak fakta langka yang dijawab benar oleh model, semakin tidak mungkin jumlah parameternya sedikit. Ia terlebih dahulu menggunakan 89 model open-source dengan jumlah parameter yang diketahui untuk menghasilkan kurva fitting yang sangat akurat, lalu memetakan skor jawaban model tertutup ke kurva tersebut untuk membaca estimasi jumlah parameternya. Makalah ini menguji 92 model tertutup; angka-angka tersebut bukan nilai tepat—misalnya, model yang diperkirakan 9,7T sebenarnya mungkin berada di antara 3T hingga 29T—tetapi peringkat relatif dan skala tetap memiliki nilai referensi: GPT-5.5 sekitar 9,7T, unggul jauh, hampir dua kali lipat dari posisi kedua, Claude Opus 4.6 (sekitar 5,3T). Kelompok kedua, 3 hingga 4T, sangat padat: GPT-5 sekitar 4,1T, Claude Opus 4.7 sekitar 4,0T, o1 sekitar 3,5T, Grok-4 sekitar 3,2T, o3 sekitar 3,0T. Tiga perusahaan utama—OpenAI, Anthropic, dan xAI—memiliki model unggulan mereka berada dalam rentang 1,4 kali lipat. Kelompok ketiga, 1 hingga 2T, model unggulan menengah: GPT-4.1 sekitar 2,2T, Claude Sonnet 4.6 sekitar 1,7T, Gemini 2.5 Pro sekitar 1,2T. Model-model kecil di dasar berkisar dari sekitar 720B pada GPT-4o hingga sekitar 65B pada Claude Haiku 4.5. Model dasar GPT-5 sendiri diperkirakan sekitar 4,1T, tetapi versi .x selanjutnya (5.1 hingga 5.4) justru menurunkan kapasitas penyimpanan fakta menjadi 1,0 hingga 1,5T, baru pada GPT-5.5 yang melonjak ke sekitar 9,7T mencapai terobosan nyata. Makalah ini juga menyajikan verifikasi cerdas: membandingkan apakah dua model membuat kesalahan yang sama pada soal-soal langka. Setiap peningkatan .x pada GPT-5 menghasilkan kesalahan yang berbeda (tingkat kesamaan di bawah 0,08), menunjukkan bahwa setiap versi dilatih dari awal, bukan hanya fine-tuning dari bobot yang sama. Parameter Claude Opus meningkat dari 1,4T pada generasi ke-4 menjadi 4,0T pada generasi ke-4.7, tetapi bukan hasil fine-tuning bertahap: kesalahan antara generasi 4 dan 4.1 hampir identik (konfirmasi sebagai fine-tuning dari fondasi yang sama); kesalahan antara generasi 4.6 dan 4.7 tidak tumpang tindih sama sekali (tingkat kesamaan turun menjadi 0), sehingga model unggulan terbaru juga merupakan hasil pelatihan ulang. Pada model MoE (Mixture of Experts), total parameter—bukan parameter yang diaktifkan saat inferensi—yang dapat memprediksi kapasitas pengetahuan. Makalah ini juga menemukan bahwa model dengan ukuran sama, baik yang baru maupun yang dibuat dua tahun lalu, mengingat jumlah fakta langka yang sama; kemampuan inferensi bisa terus ditingkatkan, tetapi penyimpanan fakta tidak bisa ditekan lebih rendah. Paket alat evaluasi dan seluruh data telah dirilis secara open-source. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.