Ibinahagi ng ByteDance ang open-source na 3B-parameter na multimodal na modelo na Lance, na itinuturo sa 128 A100 GPUs

iconKuCoinFlash
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Ipinahayag ni ByteDance ang kanyang 3B-parameter na multimodal na modelo na Lance noong Mayo 19, na tinuruan gamit ang 128 A100 GPUs. Ang modelo ay nakahandle ng mga gawain sa imahe at video sa isang framework. Ipinapakita ng on-chain na data ang pagtaas ng open interest sa AI-driven na crypto projects. Gumagamit ang Lance ng dual-stream MoE design at modality-aware rotation encoding upang bawasan ang gastos habang pinapanatili ang malakas na performance. Laging tumataas ang open interest sa AI-related na mga token sa panahong ito.

Ayon sa ME News, noong Mayo 19 (UTC+8), ayon sa pagmamasid ng Beating, ang ByteDance Research ay opisyal na inilabas ang Lance, ang kanilang orihinal na unibersal na multimodal na malaking modelo. Ito ay isang magaan na modelo na may 3B lamang na aktibong parameter, at sumusuporta nang sabay sa pag-unawa, paggawa, at pag-edit ng imahe at video sa loob ng iisang framework. Ang mga pangunahing unibersal na modelo ay nakadepende sa pagpapalaki ng bilang ng parameter o paggamit ng arkitekturang text-to-image, ngunit ang Lance ay nagtagumpay sa isang paraan na gumagamit ng mababang compute power. Ang koponan ng pagpapalikha ay nagtrabaho mula sa sero, at pinababa ang kabuuang budget sa compute para sa buong proseso ng pagtuturo hanggang sa 128 na A100 GPU. Upang lutasin ang mga panloob na konflikto sa pagitan ng iba’t ibang modalidad at gawain, ginawa ng Lance dalawang pilit na paghihiwalay sa arkitektura: - Gumamit ng dual-stream hybrid Mixture-of-Experts (MoE) arkitektura upang tratuhin ang mga interwoven na multimodal na sequence, habang nagbabahagi ng pangunahing konteksto, ngunit naghihiwalay ang mga computasyonal na landas para sa pag-unawa at paggawa. - Ipinakilala ang modalidad-aware rotational position encoding upang direktang mapabawasan ang interferences sa pagitan ng heterogenous visual tokens ng imahe at video. Ang ekstremong pagpapaliit sa compute power ay hindi binaba ang limitasyon ng performance. Sa pamamagitan lamang ng 3B na aktibong parameter, ang mga pagganap ng Lance sa paggawa at pag-edit ng imahe at video ay nangunguna sa karamihan sa mga benchmark test kumpara sa iba pang open-source na unibersal na modelo, at nagtagumpay sa isang mababang gastos na paraan na nagtataguyod ng parehong paggawa at semantic understanding sa pamamagitan ng multi-task collaboration. (Pinagkunan: BlockBeats)

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.