Nuevo método estima GPT-5.5 en 9.7T, Grok-4 en 3.2T

Mensaje de AIMPACT, 30 de abril (UTC+8): Según el monitoreo de Beating, el científico principal de Pine AI, Li Bojie, publicó el artículo "Incompressible Knowledge Probes: Estimating Parameter Counts of Black-Box Large Language Models Based on Fact Capacity", utilizando 1.400 preguntas de conocimientos poco conocidos para inferir cuántos parámetros tienen modelos de lenguaje grandes de código cerrado. Dado que recordar un hecho ocupa espacio de parámetros, cuantos más hechos poco conocidos responda correctamente un modelo, menos posible es que tenga pocos parámetros. Primero, utilizó 89 modelos de código abierto con parámetros conocidos para trazar una curva de ajuste con alta precisión, luego proyectó los puntajes de los modelos de código cerrado sobre esta curva para leer los parámetros correspondientes. El artículo evaluó 92 modelos de código cerrado; los números no son valores exactos —por ejemplo, un modelo estimado en 9.7T podría realmentesituarse entre 3T y 29T—, pero su clasificación relativa y escala siguen siendo útiles: GPT-5.5 tiene aproximadamente 9.7T, liderando claramente, casi el doble que el segundo lugar, Claude Opus 4.6 (aproximadamente 5.3T). En la segunda categoría, entre 3 y 4T se agrupan: GPT-5 aprox. 4.1T, Claude Opus 4.7 aprox. 4.0T, o1 aprox. 3.5T, Grok-4 aprox. 3.2T, o3 aprox. 3.0T. Los modelos insignia de OpenAI, Anthropic y xAI están todos dentro de un rango de 1.4 veces. En la tercera categoría, entre 1 y 2T: GPT-4.1 aprox. 2.2T, Claude Sonnet 4.6 aprox. 1.7T, Gemini 2.5 Pro aprox. 1.2T. Los modelos más pequeños van desde GPT-4o (aprox. 720B) hasta Claude Haiku 4.5 (aprox. 65B). El modelo base GPT-5 se estima en aproximadamente 4.1T, pero las versiones posteriores .x (5.1 a 5.4) redujeron su capacidad de almacenamiento de hechos a entre 1.0 y 1.5T, hasta que GPT-5.5 saltó a aproximadamente 9.7T y logró realmente superar el límite. El artículo incluye una ingeniosa validación: comparar si dos modelos cometen los mismos errores en preguntas poco conocidas. Cada actualización .x de GPT-5 cometió errores distintos (similitud inferior a 0.08 en todos los casos), lo que indica que cada versión fue entrenada desde cero, no mediante ajuste fino sobre los mismos pesos. El número de parámetros de Claude Opus aumentó de 1.4T en la generación 4 a 4.0T en la generación 4.7, pero no fue un ajuste fino continuo: entre la versión 4 y la 4.1 los errores fueron casi idénticos, confirmando que se trató de un ajuste fino sobre la misma base; entre la versión 4.6 y la 4.7 los errores no se superponen en absoluto (similitud cae a 0), lo que indica que el último modelo insignia también fue entrenado desde cero. En modelos MoE (Mixture of Experts), es el número total de parámetros —no los parámetros activados durante cada inferencia— lo que predice la capacidad de conocimiento. El artículo también descubrió que modelos del mismo tamaño, ya sea de este año o de hace dos años, recuerdan la misma cantidad de conocimientos poco conocidos: la capacidad de razonamiento puede mejorar continuamente, pero el almacenamiento de hechos no puede reducirse. El paquete de evaluación y todos los datos ya están disponibles como código abierto. (Fuente: BlockBeats)