多年來最詳盡的前沿 LLM 訓練報告之一。 微軟剛剛發布了其以推理為導向的模型 MAI-Thinking-1 的深度技術解析: • 35B 活躍參數 / 1T 總參數的 MoE • 256k 上下文窗口(約 600 頁文件) • 在由 8,000 個 GB200 GPU 組成的叢集中進行訓練 有趣的是:重點不在於新穎的架構,而在於數據品質與訓練方法。這可能是前沿模型優勢未來的主要轉移方向。 該模型不會開源,但微軟計劃透過 API 提供微調功能。如果更多大型科技實驗室開始再次分享此等細節,研究人員與開發者將能更清楚地了解真正重要的因素。 你認為下一個重大突破將來自更好的架構,還是更好的數據與訓練流程?

