新しい手法により、GPT-5.5は9.7T、Grok-4は3.2Tと推定される

AIMPACT メッセージ：2024年4月30日（UTC+8）、Beating監視によると、Pine AIのチーフサイエンティストである李博杰は、論文『圧縮不可能な知識プローブ：事実容量に基づくブラックボックス大言語モデルのパラメータ数推定』を発表し、1400問の冷門知識問題を用いて閉源モデルのパラメータ数を逆算した。事実を記憶するにはパラメータ空間が必要であり、モデルが正解する冷門事実の数が多ければ多いほど、パラメータ数は少なくなり得ない。彼はまず、89個のパラメータ数が既知のオープンソースモデルを用いて高精度なフィッティング曲線を描き、次に閉源モデルの正解スコアをその曲線にプロットして対応するパラメータ数を読み取った。論文では92の閉源モデルを評価したが、これらの数値は正確な値ではなく、たとえば9.7Tと推定されたモデルは実際には3Tから29Tの範囲にある可能性がある。しかし、相対的な順位と規模は依然として参考価値を持つ：GPT-5.5は約9.7Tで圧倒的に1位であり、2位のClaude Opus 4.6（約5.3T）のほぼ2倍である。第2グループの3～4Tゾーンには、GPT-5（約4.1T）、Claude Opus 4.7（約4.0T）、o1（約3.5T）、Grok-4（約3.2T）、o3（約3.0T）が集中している。OpenAI、Anthropic、xAIの3社のフラッグシップモデルは、すべて1.4倍以内に収まっている。第3グループの1～2T中堅フラッグシップには、GPT-4.1（約2.2T）、Claude Sonnet 4.6（約1.7T）、Gemini 2.5 Pro（約1.2T）が含まれる。下位の小規模モデルは、GPT-4oの約720BからClaude Haiku 4.5の約65Bまで広がっている。GPT-5のベースモデル自体は約4.1Tと推定されるが、その後の.xバージョン（5.1～5.4）では事実記憶容量が1.0～1.5Tに低下し、GPT-5.5でようやく約9.7Tに跳ね上がり、真のブレイクスルーを達成した。論文にはもう一つ巧妙な検証が含まれている：2つのモデルが冷門問題で同じ誤りを犯しているかを比較するという方法だ。GPT-5の各.xバージョンは、いずれも誤りの類似度が0.08未満であり、各バージョンが同じ重みを微調整したものではなく、すべて新しくトレーニングされたモデルであることを示している。Claude Opusのパラメータ数は4代目で1.4Tから4.7代目で4.0Tへと増加したが、これは一貫して微調整された結果ではない：4代目から4.1代目までの誤りはほぼ完全に一致しており、同じベースモデルからの微調整であることが確認された。一方、4.6代目から4.7代目への誤りは完全に重複せず（類似度は0に低下）、最新フラッグシップも再トレーニングされた製品であることが示された。MoE（混合エキスパート）モデルにおいては、推論時に活性化されるパラメータではなく、総パラメータ数が知識容量を予測する指標となる。論文はまた、同じサイズのモデルであれば、今年のものでも2年前のものでも、記憶する冷門知識の量は同じであり、推論能力は向上し続けるが、事実記憶容量は縮小できないことを発見した。評価ツールキットとすべてのデータはオープンソースとして公開されている。（出典：BlockBeats）