source avatarDavid Arnal

Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy

Один из самых подробных отчетов о тренировке LLM на переднем крае за последние годы. Microsoft только что опубликовала глубокий технический разбор MAI-Thinking-1 — своей модели, ориентированной на рассуждения: • 35 млрд активных / 1 трлн общих параметров MoE • Окно контекста 256k (~600-страничный документ) • Тренировка проводилась на кластере из 8 000 GPU GB200 Интересная деталь: акцент был сделан не на новой архитектуре, а на качестве данных и рецепте тренировки. Именно здесь, вероятно, сосредоточится преимущество передовых моделей в будущем. Модель не будет открыта, но Microsoft планирует предложить тонкую настройку через API. Если другие крупные технологические лаборатории начнут снова делиться таким уровнем деталей, исследователи и разработчики получат гораздо более четкое представление о том, что действительно важно. Считаете ли вы, что следующие крупные достижения будут связаны с лучшими архитектурами — или с лучшими данными и тренировочными конвейерами?

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.