source avatarDavid Arnal

I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy

Isa sa pinakamalalim at detalyadong ulat sa pag-train ng frontier LLM sa mga taon. Ipinublished ng Microsoft ang isang malalim na teknikal na pagsusuri ng MAI-Thinking-1, ang kanilang modelong nakatuon sa pag-iisip: • 35B aktibo / 1T kabuuang parameter MoE • 256k na context window (~600-pahina na dokumento) • Pinatutunaw sa isang cluster ng 8,000 GB200 GPUs Ang interesanteng bahagi: ang pagkakatuon ay mas kaunti sa bagong arkitektura at mas marami sa kalidad ng data + training recipe. Dito maaaring lumipat ang maraming kahalagahan sa pangunahing model. Hindi ito i-open-source, ngunit plano ng Microsoft na magbigay ng fine-tuning sa pamamagitan ng API. Kung mas maraming mga lab ng Big Tech ang magbabahagi muli ng antas na ito ng detalye, mas malinaw ang pananaw ng mga mananaliksik at tagagawa kung ano talaga ang mahalaga. Sa tingin mo, saan darating ang susunod na malaking pag-unlad—mula sa mas magagandang arkitektura o sa mas magagandang data at training pipelines?

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.