Um dos relatórios mais detalhados sobre treinamento de LLMs de ponta dos últimos anos. A Microsoft acabou de publicar uma análise técnica aprofundada do MAI-Thinking-1, seu modelo focado em raciocínio: • 35B parâmetros ativos / 1T parâmetros totais em MoE • Janela de contexto de 256k (~600 páginas de documento) • Treinado em um cluster de 8.000 GPUs GB200 A parte interessante: o foco foi menos em arquitetura inovadora e mais na qualidade dos dados + receita de treinamento. É aí que pode estar se deslocando grande parte da vantagem dos modelos de ponta. Ele não será aberto, mas a Microsoft planeja oferecer fine-tuning via API. Se mais laboratórios da Big Tech começarem a compartilhar esse nível de detalhe novamente, pesquisadores e desenvolvedores terão uma visão muito mais clara do que realmente importa. Você acha que os próximos grandes avanços virão de arquiteturas melhores — ou de dados e pipelines de treinamento melhores?

Compartilhar






Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.