L’un des rapports les plus détaillés sur l’entraînement de LLM de pointe des dernières années. Microsoft vient de publier une analyse technique approfondie de MAI-Thinking-1, son modèle axé sur le raisonnement : • 35 Go d’paramètres actifs / 1 To de paramètres totaux en MoE • Fenêtre de contexte de 256k (~600 pages de document) • Entraîné sur un cluster de 8 000 GPU GB200 La partie intéressante : l’accent a été mis moins sur une architecture novatrice et davantage sur la qualité des données et la recette d’entraînement. C’est là que réside probablement le prochain avantage des modèles de pointe. Il ne sera pas open-source, mais Microsoft prévoit de proposer un fine-tuning via API. Si davantage de laboratoires de Big Tech commencent à partager ce niveau de détail à nouveau, les chercheurs et les développeurs auront une vision bien plus claire de ce qui compte vraiment. Pensez-vous que les prochains grands progrès viendront de meilleures architectures — ou de meilleures données et pipelines d’entraînement ?

Partager






Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.