Один із найбільш детальних звітів про навчання LLM на передовому фронті за останні роки. Microsoft щойно опублікувала глибокий технічний аналіз MAI-Thinking-1 — своєї моделі, зосередженої на міркуваннях: • 35 млрд активних / 1 трлн загальних параметрів MoE • Вікно контексту 256K (~600 сторінок документа) • Навчалася на кластері з 8 000 GPU GB200 Цікаве: акцент був зроблений не на новій архітектурі, а на якості даних та рецепті навчання. Саме тут, ймовірно, зміщується перевага передових моделей. Модель не буде відкрита, але Microsoft планує надавати фінтюнінг через API. Якщо більше лабораторій великих технологічних компаній почнуть ділитися таким рівнем деталізації, дослідники та розробники отримають набагато чіткіше уявлення про те, що справді має значення. Ви вважаєте, що наступні великі досягнення прийдуть завдяки кращим архітектурам — чи кращим даним та тренувальним пайплайнам?

Поділитися






Джерело:Показати оригінал
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.