ME News 消息,5 月 14 日(UTC+8),據動察 Beating 監測,Nous Research 發佈大模型預訓練新方案「詞元疊加訓練」(TST)。該方案透過在訓練前期打包壓縮相鄰詞元,能在同等計算量下將預訓練時間縮短 2 到 3 倍。TST 包含兩個階段。在前 20% 到 40% 的訓練中,模型不再逐個讀取詞元,而是將相鄰詞元「打包」求平均值輸入,並在輸出端預測下一個包裡包含哪些詞元(不計內部順序)。之後,模型退回常規的下一個詞元預測。由於未修改底層架構,產出的模型在推理時與常規模型完全相同。該方法已於最高 100 億參數的 MoE 模型上驗證通過。這套方案的本質是「用數據換算力」,以更快的語料消耗速度來換取計算時間的縮短。如果未來高質量文本被耗盡,其加速消耗數據的特性可能會成為短板。另外,在論文發佈數小時後,有讀者指出 TST 的機制與 2024 年發佈的舊作《Beyond Next Token Prediction》極度相似。作者團隊隨後在 Hugging Face 坦承這是「不幸的趨同研究(convergent research)」,承諾將更新論文補充引用。(來源:BlockBeats)
Nous Research 的 TST 訓練方法因與先前研究相似而引發爭議
KuCoinFlash分享






Nous Research 於 5 月 14 日(UTC+8)公布了一項新的代幣發行消息,並推出其「代幣堆疊訓練」(TST)方法,聲稱在相同計算負載下可將預訓練時間縮短 2 至 3 倍。該方法在早期訓練階段堆疊相鄰代幣,並預測代幣包而非單一代幣。批評者迅速指出 TST 與 2024 年論文《Beyond Next Token Prediction》極為相似。該團隊承認此重疊為「不幸的趨同研究」,並承諾將補上適當的引用。新代幣上線常引發審視,此案例亦不例外。
來源:顯示原文
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。