Novo método estima GPT-5.5 em 9,7T, Grok-4 em 3,2T

Mensagem do AIMPACT, 30 de abril (UTC+8): De acordo com monitoramento da Beating, o cientista-chefe da Pine AI, Li Bojie, publicou o artigo “Incompressible Knowledge Probes: Estimating Parameter Counts of Black-Box Large Language Models Based on Fact Capacity”, utilizando 1.400 perguntas de conhecimentos obscurecidos para inferir o número de parâmetros de modelos fechados. Como memorizar um fato ocupa espaço de parâmetros, quanto mais fatos obscuros o modelo acertar, menos provável é que tenha poucos parâmetros. Ele primeiro traçou uma curva de ajuste com 89 modelos abertos cujos números de parâmetros eram conhecidos, obtendo um alto grau de ajuste, e depois plotou os resultados dos modelos fechados para ler os parâmetros correspondentes. O artigo avaliou 92 modelos fechados; os números não são exatos — por exemplo, um modelo estimado em 9,7T pode realmente variar entre 3T e 29T — mas a classificação relativa e a ordem de grandeza ainda têm valor de referência: GPT-5.5 tem cerca de 9,7T, liderando isoladamente, quase o dobro do segundo colocado, Claude Opus 4.6 (cerca de 5,3T). Na segunda faixa, entre 3T e 4T, há um agrupamento: GPT-5 cerca de 4,1T, Claude Opus 4.7 cerca de 4,0T, o1 cerca de 3,5T, Grok-4 cerca de 3,2T e o3 cerca de 3,0T. Os modelos principais da OpenAI, Anthropic e xAI estão todos dentro de 1,4 vezes um do outro. Na terceira faixa, entre 1T e 2T, estão os modelos intermediários principais: GPT-4.1 cerca de 2,2T, Claude Sonnet 4.6 cerca de 1,7T e Gemini 2.5 Pro cerca de 1,2T. Os modelos menores variam desde cerca de 720B do GPT-4o até cerca de 65B do Claude Haiku 4.5. O modelo base do GPT-5 é estimado em cerca de 4,1T, mas as versões subsequentes .x (de 5.1 a 5.4) apresentam capacidade de armazenamento de fatos reduzida para 1,0 a 1,5T, até que o GPT-5.5 salte para cerca de 9,7T e realmente rompa a barreira. O artigo inclui uma verificação engenhosa: comparar se dois modelos cometem os mesmos erros em perguntas obscuras. Cada atualização .x do GPT-5 cometia erros diferentes (similaridade sempre abaixo de 0,08), indicando que cada versão foi treinada do zero e não apenas ajustada finamente sobre os mesmos pesos. O número de parâmetros do Claude Opus aumentou de 1,4T na geração 4 para 4,0T na geração 4.7, mas não foi apenas ajuste contínuo: os erros entre a versão 4 e a 4.1 foram quase idênticos (confirmando ajuste fino sobre a mesma base); já entre as versões 4.6 e 4.7 os erros não se sobrepuseram em absoluto (similaridade caiu a zero), indicando que o novo modelo principal também foi treinado do zero. Em modelos MoE (Mixture of Experts), é o número total de parâmetros — e não apenas os ativados durante a inferência — que prediz a capacidade de conhecimento. O artigo também descobriu que modelos do mesmo tamanho, seja deste ano ou de dois anos atrás, memorizam a mesma quantidade de fatos obscuros; a capacidade de raciocínio pode melhorar continuamente, mas o armazenamento de fatos não pode ser comprimido. O pacote de avaliação e todos os dados já estão abertos ao público. (Fonte: BlockBeats)