AIMPACT 消息,4 月 30 日(UTC+8),據動察 Beating 監測,Pine AI 首席科學家李博傑發表論文《不可壓縮知識探針:基於事實容量估算黑盒大語言模型參數量》,利用 1,400 道冷知識題反推出閉源模型的參數量。由於記住一條事實需佔用參數空間,模型答對的冷門事實越多,參數量就不可能過少。他先以 89 個參數量已知的開源模型繪製一條擬合曲線,擬合度極高,再將閉源模型的答題得分投射上去,讀取對應的參數量。論文測試了 92 個閉源模型,數值並非精確值,例如估計為 9.7T 的模型實際可能介於 3T 至 29T 之間,但相對排名與量級仍具參考價值:GPT-5.5 約 9.7T,斷層第一,幾乎是第二名 Claude Opus 4.6(約 5.3T)的兩倍。第二檔 3 至 4T 密集區:GPT-5 約 4.1T,Claude Opus 4.7 約 4.0T,o1 約 3.5T,Grok-4 約 3.2T,o3 約 3.0T。OpenAI、Anthropic、xAI 三家的旗艦模型參數量差距在 1.4 倍以內。第三檔 1 至 2T 中端旗艦:GPT-4.1 約 2.2T,Claude Sonnet 4.6 約 1.7T,Gemini 2.5 Pro 約 1.2T。底部小型模型從 GPT-4o 的約 720B 一路降至 Claude Haiku 4.5 的約 65B。GPT-5 基礎模型本身估計約 4.1T,但後續 .x 版本(5.1 至 5.4)的事實存儲容量反而降至 1.0 至 1.5T,直至 GPT-5.5 跳升至約 9.7T 才真正突破。論文還有一項巧妙驗證:比較兩個模型在冷門題上是否犯同樣錯誤。GPT-5 每次 .x 升級所犯錯誤均不相同(相似度均低於 0.08),說明每個版本皆為從頭訓練的新模型,而非在相同權重上微調。Claude Opus 的參數量從第 4 代的 1.4T 湧升至第 4.7 代的 4.0T,但並非一路微調而來:第 4 代至第 4.1 代所犯錯誤幾乎完全一致,確認為同一底座微調;第 4.6 至第 4.7 代所犯錯誤完全不重疊(相似度降至 0),最新旗艦同樣為重新訓練的產物。在 MoE(混合專家)模型中,總參數量而非每次推理激活的參數量才能預測知識容量。論文還發現,無論是今年還是兩年前的同尺寸模型,記住的冷知識數量相同,推理能力可持續提升,但事實存儲容量無法壓縮。評測工具包與全部數據已開源。(來源:BlockBeats)
新方法估計 GPT-5.5 為 9.7T,Grok-4 為 3.2T
KuCoinFlash分享






隨著一篇新論文估計 GPT-5.5 的參數量為 9.7T,Grok-4 為 3.2T,CFT 的擔憂正在上升。Pine AI 的李博傑使用 1,400 個事實性問題來評估記憶容量,並將閉源模型與 89 個開源模型的曲線進行比較。研究顯示,GPT-5.5 的規模幾乎是排名第二的 Claude Opus 4.7 的兩倍。該方法突顯了若更大模型導致系統性風險上升,可能對風險資產構成的風險。部分模型是從頭重新訓練,而非微調。
來源:顯示原文
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。