Nous ResearchのTSTトレーニング手法が、過去の作業との類似性について議論を呼んでいる

iconKuCoinFlash
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
Nous Researchは5月14日(UTC+8)に、Token Stacking Training(TST)手法を用いた新トークンの発表を発表し、同じ計算負荷で事前学習時間を2〜3倍短縮できると主張した。この手法は、初期学習中に隣接するトークンを積み重ね、単一のトークンではなくトークンパッケージを予測する。批判者は、TSTが2024年の論文『Beyond Next Token Prediction』と類似していることにすぐに気づき、同チームはこの重複を「不運な収束的研究」と認め、適切な出典を追加すると約束した。新トークンの上場は常に注目を集め、今回のケース也不例外である。

MEニュース:5月14日(UTC+8)、動察Beatingの監視によると、Nous Researchは大規模モデルの事前学習新手法「トークンスタッキングトレーニング(TST)」を発表しました。この手法は、学習初期に隣接するトークンをパッケージ化して圧縮することで、同じ計算量で事前学習時間を2〜3倍短縮できます。TSTは2段階から構成されます。学習の前20%〜40%では、モデルはトークンを1つずつ読み取るのではなく、隣接するトークンを「パッケージ化」して平均値を入力とし、出力では次のパッケージに含まれるトークンを予測します(内部順序は無視)。その後、モデルは従来の次のトークン予測に戻ります。ベースアーキテクチャを変更していないため、生成されたモデルは推論時に従来のモデルと完全に同じです。この手法は、最大100億パラメータのMoEモデルで検証済みです。この手法の本質は「データで計算力を交換」することであり、コーパスの消費速度を速めることで計算時間の短縮を実現しています。しかし、今後高品質なテキストが枯渇した場合、データを高速で消費する特性が逆に短所となる可能性があります。また、論文公開数時間後、読者からTSTのメカニズムが2024年に発表された過去の論文『Beyond Next Token Prediction』と極めて類似しているとの指摘があり、著者チームはその後Hugging Faceでこれは「不運な収束的研究(convergent research)」であると認めており、論文に引用を追加すると約束しました。(出典:BlockBeats)

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。