Nouvelle méthode estime GPT-5.5 à 9,7T, Grok-4 à 3,2T

Message AIMPACT, 30 avril (UTC+8) : Selon les données surveillées par Beating, le scientifique en chef de Pine AI, Li Bojie, a publié un article intitulé « Incompressible Knowledge Probes : Estimating the Parameter Count of Black-Box Large Language Models Based on Fact Capacity », utilisant 1 400 questions de connaissances rares pour inverser la estimation du nombre de paramètres des modèles propriétaires. Étant donné qu'il faut de l'espace de paramètres pour mémoriser un fait, plus un modèle répond correctement à des faits rares, moins il peut avoir peu de paramètres. Il a d'abord tracé une courbe d'ajustement à partir de 89 modèles open source dont le nombre de paramètres est connu, avec un très bon coefficient de corrélation, puis a projeté les scores des modèles propriétaires sur cette courbe pour en déduire le nombre de paramètres correspondant. L'article a évalué 92 modèles propriétaires ; les chiffres ne sont pas exacts — par exemple, un modèle estimé à 9,7 T pourrait réellement se situer entre 3 T et 29 T — mais le classement relatif et l'échelle restent utiles : GPT-5.5 est estimé à environ 9,7 T, en tête nette, soit presque deux fois plus que le deuxième, Claude Opus 4.6 (environ 5,3 T). La deuxième tranche, entre 3 et 4 T, est très concentrée : GPT-5 à environ 4,1 T, Claude Opus 4.7 à environ 4,0 T, o1 à environ 3,5 T, Grok-4 à environ 3,2 T et o3 à environ 3,0 T. Les modèles phares d'OpenAI, Anthropic et xAI se situent tous dans un écart de 1,4 fois maximum. La troisième tranche, entre 1 et 2 T pour les modèles milieu de gamme : GPT-4.1 à environ 2,2 T, Claude Sonnet 4.6 à environ 1,7 T et Gemini 2.5 Pro à environ 1,2 T. Les petits modèles en bas de gamme descendent de GPT-4o (environ 720 G) jusqu'à Claude Haiku 4.5 (environ 65 G). Le modèle de base GPT-5 est estimé à environ 4,1 T, mais les versions ultérieures .x (5.1 à 5.4) affichent une capacité de stockage de faits réduite à 1,0 à 1,5 T, jusqu'à ce que GPT-5.5 atteigne environ 9,7 T pour une véritable rupture. L'article inclut également une vérification astucieuse : comparer si deux modèles commettent les mêmes erreurs sur des questions rares. Chaque mise à jour .x de GPT-5 commet des erreurs différentes (similarité inférieure à 0,08), ce qui indique que chaque version a été entraînée depuis zéro et n'est pas un fine-tuning des poids précédents. Le nombre de paramètres de Claude Opus est passé de 1,4 T à la génération 4 à 4,0 T pour la génération 4.7, mais ce n'est pas un fine-tuning continu : les erreurs entre la version 4 et la version 4.1 sont presque identiques (confirmation d'un même fond commun), tandis que les erreurs entre la version 4.6 et la version 4.7 ne se chevauchent pas du tout (similarité tombée à 0), prouvant que le dernier modèle phare est également le produit d'un nouvel entraînement. Pour les modèles MoE (Mixture of Experts), c'est le nombre total de paramètres — et non ceux activés lors de chaque inférence — qui permet de prédire la capacité de connaissance. L'article révèle également que des modèles de même taille, qu'ils soient d'aujourd'hui ou d'il y a deux ans, mémorisent le même nombre de faits rares : la capacité d'inférence peut s'améliorer continuellement, mais la capacité de stockage des faits ne peut être réduite. L'ensemble des outils d'évaluation et des données sont désormais open source. (Source : BlockBeats)