Новый метод оценивает GPT-5.5 в 9,7 трлн, Grok-4 — в 3,2 трлн

Сообщение AIMPACT, 30 апреля (UTC+8): По данным мониторинга Beating, главный научный сотрудник Pine AI Ли Бочжэй опубликовал статью «Несжимаемые пробники знаний: оценка параметров черных ящиков крупных языковых моделей на основе фактической емкости», в которой с помощью 1400 вопросов по редким фактам обратно вывел количество параметров закрытых языковых моделей. Поскольку запоминание одного факта занимает пространство параметров, чем больше редких фактов модель отвечает правильно, тем больше параметров она не может иметь. Сначала он построил по 89 известным по количеству параметров открытым моделям аппроксимирующую кривую с высокой точностью, а затем нанес на нее результаты закрытых моделей и прочитал соответствующее количество параметров. В статье было протестировано 92 закрытые модели; цифры не являются точными значениями — например, оценка модели в 9,7 Т может фактически находиться в диапазоне от 3 Т до 29 Т, но относительный рейтинг и масштаб остаются полезными: GPT-5.5 — около 9,7 Т, отрыв первого места, почти вдвое больше, чем у второго места — Claude Opus 4.6 (около 5,3 Т). Второй уровень — модели от 3 до 4 Т: GPT-5 — около 4,1 Т, Claude Opus 4.7 — около 4,0 Т, o1 — около 3,5 Т, Grok-4 — около 3,2 Т, o3 — около 3,0 Т. Флагманские модели OpenAI, Anthropic и xAI упакованы в пределах 1,4-кратного различия. Третий уровень — средние флагманы от 1 до 2 Т: GPT-4.1 — около 2,2 Т, Claude Sonnet 4.6 — около 1,7 Т, Gemini 2.5 Pro — около 1,2 Т. Малые модели внизу варьируются от GPT-4o (около 720 млрд) до Claude Haiku 4.5 (около 65 млрд). Сама базовая модель GPT-5 оценивается примерно в 4,1 Т, но последующие версии .x (от 5.1 до 5.4) показали снижение емкости хранения фактов до 1,0–1,5 Т, пока GPT-5.5 не прыгнула до примерно 9,7 Т и не достигла настоящего прорыва. В статье также содержится изящная проверка: сравнение того, делают ли две модели одни и те же ошибки на редких вопросах. Каждая версия .x GPT-5 допускает разные ошибки (схожесть ниже 0,08), что указывает на то, что каждая версия — это новая модель, обученная с нуля, а не дообученная на тех же весах. Параметры Claude Opus увеличились с 1,4 Т в версии 4 до 4,0 Т в версии 4.7, но это не было результатом последовательного дообучения: ошибки между версиями 4 и 4.1 почти полностью совпадают — подтверждение того, что это дообучение одной базовой модели; ошибки между версиями 4.6 и 4.7 полностью не пересекаются (схожесть упала до нуля), что означает, что новейший флагман также является результатом переобучения. В моделях MoE (смешанные эксперты) именно общее количество параметров, а не активируемые во время вывода параметры, могут предсказать емкость знаний. Авторы также обнаружили, что модели одинакового размера — будь то текущие или двухлетней давности — запоминают одинаковое количество редких фактов: способность к рассуждению может улучшаться со временем, но емкость хранения фактов не может быть снижена. Инструментарий для оценки и все данные уже открыты. (Источник: BlockBeats)