Новий метод оцінює GPT-5.5 у 9,7 трлн, Grok-4 — у 3,2 трлн

Повідомлення AIMPACT, 30 квітня (UTC+8): За даними моніторингу Beating, головний науковець Pine AI Лі Боцзе опублікував статтю під назвою «Нестиснені зонди знань: оцінка кількості параметрів чорних ящиків великих мовних моделей на основі їхньої фактової місткості», в якій він зворотним шляхом визначив кількість параметрів у закритих моделях, використовуючи 1400 питань з незвичайних фактів. Оскільки запам’ятовування одного факту займає простір параметрів, чим більше незвичайних фактів модель відповідає правильно, тим більше параметрів вона не може мати. Спочатку він побудував криву наближення на основі 89 відкритих моделей із відомою кількістю параметрів — наближення було дуже точним. Потім він наніс результати закритих моделей на цю криву, щоб визначити відповідну кількість параметрів. У статті було оцінено 92 закритих моделей; отримані цифри не є точними значеннями — наприклад, оцінка моделі в 9,7 Т параметрів може фактично знаходитися в діапазоні від 3 Т до 29 Т, але відносний рейтинг і масштаб залишаються корисними: GPT-5.5 — приблизно 9,7 Т, розрив першого місця, майже вдвічі більше, ніж у другого місця — Claude Opus 4.6 (приблизно 5,3 Т). Друга група — 3–4 Т: GPT-5 — приблизно 4,1 Т, Claude Opus 4.7 — приблизно 4,0 Т, o1 — приблизно 3,5 Т, Grok-4 — приблизно 3,2 Т, o3 — приблизно 3,0 Т. Три лідери — OpenAI, Anthropic і xAI — розташовані всередині діапазону менше ніж у 1,4 рази. Третя група — середні флагманські моделі з 1–2 Т: GPT-4.1 — приблизно 2,2 Т, Claude Sonnet 4.6 — приблизно 1,7 Т, Gemini 2.5 Pro — приблизно 1,2 Т. Найменші моделі починаються з GPT-4o (приблизно 720 млрд) і спадають до Claude Haiku 4.5 (приблизно 65 млрд). Сама базова модель GPT-5 оцінюється в близько 4,1 Т, але наступні версії .x (від 5.1 до 5.4) мають меншу місткість зберігання фактів — лише 1,0–1,5 Т — і лише GPT-5.5 стрибнув до приблизно 9,7 Т, щоб справді подолати цей бар’єр. У статті також наведено хитрий метод перевірки: порівняння того, чи дві моделі роблять однакову помилку на незвичайних питаннях. Кожна версія .x GPT-5 робить різні помилки (степеневий збіг нижче 0,08), що свідчить про те, що кожна версія була навчена з нуля, а не є доопрацюванням однієї й тієї ж групи ваг. Параметри Claude Opus зросли з 1,4 Т у версії 4 до 4,0 Т у версії 4.7, але це не був безперервний процес доопрацювання: помилки між версіями 4 і 4.1 майже повністю збігалися (підтверджуючи, що це доопрацювання однієї й тієї ж основи); а помилки між версіями 4.6 і 4.7 повністю не перетиналися (збіг знизився до 0), що означає, що останнє флагманське розв’язання також було результатом повного переосвоєння. У моделях MoE (мішаного експерта) саме загальна кількість параметрів, а не та кількість, що активується під час одного висновку, може передбачити місткість знань. Автори також виявили, що моделі однакового розміру — незалежно від того, чи це сьогоднішнє чи дворокове розв’язання — запам’ятовують однакову кількість незвичайних фактів: здатність до мислення може покращуватися з часом, але зберігання фактами не можна зменшити. Інструментарий для оцінки та всi данi вже випущенi як вiдкритий код. (Джерело: BlockBeats)