MEニュース、4月8日(UTC+8)、PyTorch公式は、NVIDIA H100およびB200 GPU上でtorch.compileを使用する際のLayerNormとRMSNormという2つの基本的な正規化手法のパフォーマンスを評価し、改善しました。目標は、これらの操作をカーネル単位で最先端のパフォーマンスに近づけ、自動融合機能を提供することです。公式情報には、より詳細な内容へのリンクが含まれています。(出典:InFoQ)
PyTorchがH100およびB200 GPUでのLayerNormとRMSNormのパフォーマンスを最適化
KuCoinFlash共有






PyTorchは、NVIDIA H100およびB200 GPUにおけるLayerNormとRMSNormのパフォーマンスを最適化するプロジェクトを発表しました。torch.compileを使用して、チームはカーネルごとの効率を向上させ、自動融合を可能にしました。この更新は、ディープラーニングコミュニティからの継続的なオンチェーンニュースの一部です。詳細は公式ブログをご覧ください。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。