新方法估計 GPT-5.5 為 9.7T，Grok-4 為 3.2T

AIMPACT 消息，4 月 30 日（UTC+8），據動察 Beating 監測，Pine AI 首席科學家李博傑發表論文《不可壓縮知識探針：基於事實容量估算黑盒大語言模型參數量》，利用 1,400 道冷知識題反推出閉源模型的參數量。由於記住一條事實需佔用參數空間，模型答對的冷門事實越多，參數量就不可能過少。他先以 89 個參數量已知的開源模型繪製一條擬合曲線，擬合度極高，再將閉源模型的答題得分投射上去，讀取對應的參數量。論文測試了 92 個閉源模型，數值並非精確值，例如估計為 9.7T 的模型實際可能介於 3T 至 29T 之間，但相對排名與量級仍具參考價值：GPT-5.5 約 9.7T，斷層第一，幾乎是第二名 Claude Opus 4.6（約 5.3T）的兩倍。第二檔 3 至 4T 密集區：GPT-5 約 4.1T，Claude Opus 4.7 約 4.0T，o1 約 3.5T，Grok-4 約 3.2T，o3 約 3.0T。OpenAI、Anthropic、xAI 三家的旗艦模型參數量差距在 1.4 倍以內。第三檔 1 至 2T 中端旗艦：GPT-4.1 約 2.2T，Claude Sonnet 4.6 約 1.7T，Gemini 2.5 Pro 約 1.2T。底部小型模型從 GPT-4o 的約 720B 一路降至 Claude Haiku 4.5 的約 65B。GPT-5 基礎模型本身估計約 4.1T，但後續 .x 版本（5.1 至 5.4）的事實存儲容量反而降至 1.0 至 1.5T，直至 GPT-5.5 跳升至約 9.7T 才真正突破。論文還有一項巧妙驗證：比較兩個模型在冷門題上是否犯同樣錯誤。GPT-5 每次 .x 升級所犯錯誤均不相同（相似度均低於 0.08），說明每個版本皆為從頭訓練的新模型，而非在相同權重上微調。Claude Opus 的參數量從第 4 代的 1.4T 湧升至第 4.7 代的 4.0T，但並非一路微調而來：第 4 代至第 4.1 代所犯錯誤幾乎完全一致，確認為同一底座微調；第 4.6 至第 4.7 代所犯錯誤完全不重疊（相似度降至 0），最新旗艦同樣為重新訓練的產物。在 MoE（混合專家）模型中，總參數量而非每次推理激活的參數量才能預測知識容量。論文還發現，無論是今年還是兩年前的同尺寸模型，記住的冷知識數量相同，推理能力可持續提升，但事實存儲容量無法壓縮。評測工具包與全部數據已開源。（來源：BlockBeats）