Bagong paraan ang nagtataya na 9.7T ang GPT-5.5, 3.2T ang Grok-4

Mensahe ng AIMPACT, Abril 30 (UTC+8), ayon sa pagmamasid ng Beating, si Li Bojie, pangunahing siyentipiko ng Pine AI, ay naglabas ng papel na may pamagat na “Incompressible Knowledge Probes: Estimating Parameter Counts of Black-Box Large Language Models Based on Fact Capacity,” na gumamit ng 1,400 na tanong tungkol sa mga kakaibang katotohanan upang balikan ang bilang ng mga parameter sa mga saradong modelo. Dahil ang pag-alala sa isang katotohanan ay nangangailangan ng espasyo sa parameter, mas maraming kakaibang katotohanan ang tama ng modelo, mas hindi maaaring maliit ang parameter. Una niyang ginamit ang 89 na malalaking bukas na modelo na alam ang bilang ng kanilang parameter upang lumikha ng isang fit curve na may mataas na pagkakatugma, at pagkatapos ay isinulat ang mga marka sa pagsagot ng mga saradong modelo upang basahin ang katumbas na bilang ng parameter. Sinuri ng papel ang 92 na saradong modelo; ang mga numero ay hindi eksaktong halaga—halimbawa, ang isang modelo na inaasahang 9.7T ay maaaring nasa pagitan ng 3T hanggang 29T—ngunit ang relatibong pagkakasunod-sunod at sukat ay may halagang pang-referensya: GPT-5.5 ay humigit-kumulang 9.7T, nangunguna nang malaki, halos dalawang beses ang ikalawang lugar na Claude Opus 4.6 (humigit-kumulang 5.3T). Ang pangalawang antas na 3 hanggang 4T ay nakapikit: GPT-5 ay humigit-kumulang 4.1T, Claude Opus 4.7 ay humigit-kumulang 4.0T, o1 ay humigit-kumulang 3.5T, Grok-4 ay humigit-kumulang 3.2T, at o3 ay humigit-kumulang 3.0T. Ang tatlong pangunahing modelo ng OpenAI, Anthropic, at xAI ay nakapikit sa loob ng 1.4 beses lamang. Sa ikatlong antas na 1 hanggang 2T: GPT-4.1 ay humigit-kumulang 2.2T, Claude Sonnet 4.6 ay humigit-kumulang 1.7T, at Gemini 2.5 Pro ay humigit-kumulang 1.2T. Ang mga maliit na modelo sa ilalim ay nagsisimula sa humigit-kumulang 720B ng GPT-4o at bumaba hanggang sa humigit-kumulang 65B ng Claude Haiku 4.5. Ang pangunahing modelo ng GPT-5 ay inaasahang humigit-kumulang 4.1T, ngunit ang mga susunod na bersyon .x (5.1 hanggang 5.4) ay bumaba ang kapasidad sa pag-iimbak ng katotohanan hanggang sa 1.0 hanggang 1.5T, bago tumalon sa humigit-kumulang 9.7T sa GPT-5.5 upang makabuo ng tunay na paglilipat. Mayroon ding isang matalinong pagsusuri sa papel: ihambing kung ang dalawang modelo ay nagkakaroon ng parehong kamalian sa mga kakaibang tanong. Ang bawat .x upgrade ng GPT-5 ay nagkakaroon ng iba’t ibang kamalian (parehong pagkakatulad ay mas mababa sa 0.08), na nagpapakita na bawat bersyon ay isang bagong modelo na tinuturuan mula sa simula, hindi lamang fine-tuned sa parehong set ng weights. Ang bilang ng parameter ng Claude Opus ay tumataas mula sa 1.4T sa ika-4 na henerasyon hanggang sa 4.0T sa ika-4.7, ngunit hindi ito nagmula sa patuloy na fine-tuning: ang mga kamalian mula sa ika-4 hanggang ika-4.1 ay halos magkakapareho, na nagpapatotoo na ito ay fine-tuned mula sa parehong base; samantala, ang mga kamalian mula sa ika-4.6 hanggang ika-4.7 ay walang pagkakatugma (pagkakatulad ay bumaba sa 0), kaya ang pinakabagong flagship ay isang produkto ng bagong pagtuturo. Sa mga MoE (Mixture of Experts) model, ang kabuuang parameter, hindi ang aktibong parameter bawat inference, ang makapagpapahula sa kapasidad sa kaalaman. Natuklasan din ng papel na ang parehong laki ng modelo, kahit anong taon ito—kahit dalawang taon na ang nakalipas—ay nakauunlad ng parehong dami ng kakaibang kaalaman; ang kakayahang mag-infer ay maaaring lumakas nang patuloy, ngunit hindi maiiwasan ang pag-iimbak ng katotohanan. Ang toolkit at lahat ng data ay nasa open source. (Pinagmulan: BlockBeats)