หนึ่งในรายงานการฝึกโมเดล LLM ระดับหน้าคลื่นที่ละเอียดที่สุดในหลายปีที่ผ่านมา Microsoft เพิ่งเผยแพร่การวิเคราะห์เชิงเทคนิคลึกของ MAI-Thinking-1 โมเดลที่เน้นการให้เหตุผล: • 35B พารามิเตอร์ที่ใช้งาน / 1T พารามิเตอร์ทั้งหมดในรูปแบบ MoE • หน้าต่างบริบท 256k (~เอกสาร 600 หน้า) • ฝึกบนคลัสเตอร์ GPU GB200 8,000 ตัว สิ่งที่น่าสนใจ: จุดเน้นไม่ได้อยู่ที่สถาปัตยกรรมใหม่ๆ แต่เป็นคุณภาพของข้อมูล + สูตรการฝึก ซึ่งอาจเป็นแหล่งที่มาของข้อได้เปรียบของโมเดลระดับหน้าคลื่นในอนาคต โมเดลนี้จะไม่ถูกเปิดซอร์ส แต่ Microsoft มีแผนให้บริการการปรับแต่งผ่าน API หากแล็บขนาดใหญ่ของบริษัทเทคโนโลยีอื่นเริ่มแชร์รายละเอียดในระดับนี้อีกครั้ง นักวิจัยและผู้พัฒนาจะได้ภาพที่ชัดเจนยิ่งขึ้นว่าอะไรคือสิ่งที่สำคัญจริงๆ คุณคิดว่าผลลัพธ์ครั้งใหญ่ต่อไปจะมาจากการออกแบบสถาปัตยกรรมที่ดีขึ้น—หรือจากข้อมูลและกระบวนการฝึกที่ดีขึ้น?

แชร์






แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้
การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา