Natutupad ng DiffusionGemma ang 4x mas mabilis na pagbuo ng teksto gamit ang mga teknik ng diffusion

Sa mga taon, ang mga malalaking language model ay gumagana tulad ng isang napakabilis na typist: isang salita nang isang beses, mula kaliwa hanggang kanan, walang pagtingin pabalik. Ibinaba ng DiffusionGemma ang buong palatuntunan na iyon. Ang bukas na modelo ay gumagamit ng diffusion techniques upang maglikha ng buong mga bloke ng teksto nang одночасно, na nakakamit ng bilis ng pagbuo na hanggang apat na beses na mas mabilis kaysa sa tradisyonal na autoregressive models.

Paano talaga gumagana ang DiffusionGemma

Ang mga tradisyonal na modelo ng wika ay nagpapagawa ng teksto nang sunod-sunod. Bawat token (tulad ng isang salita o bahagi ng salita) ay ginagawa nang isang-isa, at bawat bagong token ay nakadepende sa lahat ng nangyari bago ito.

Ang DiffusionGemma ay nag-borrow mula sa parehong pamilya ng teknik na nag-revolusyon sa paggawa ng imahe. Ang diffusion models ay gumagana sa pamamagitan ng pagmumula sa ingay at paulit-ulit na pinapabuti ito upang maging isang malinaw na output. Kapag nailalapat sa teksto, ibig sabihin nito na ang model ay maaaring magtrabaho sa maraming bahagi ng isang sagot nang sabay-sabay kesa maghintay na matapos ang bawat salita bago lumipat sa susunod.

Pamamahayag

Sa mga pagtataya, nakamit ng DiffusionGemma ang mga bilis ng pagpili na halos 1,479 na token bawat segundo. Ang 4x na pagpapabilis ay hindi isang teoretikal na hangganan. Ito ay isang tukoy na benchmark.

Dahil ang diffusion models ay pinapabuti ang output nang paulit-ulit kaysa mag-commit sa bawat token nang permanente, maaaring ayusin at i-fix ng DiffusionGemma ang mga error sa loob ng proseso ng pagbuo mismo. Ang tradisyonal na mga model ay walang ganitong kagandahan. Kapag isang salita ay nabuo, ito ay naging bahagi na, at ang anumang mga error sa ibaba ay magpapalaganap patungo sa harap.

Ang hardware angle at ang koneksyon sa Google DeepMind

Ang DiffusionGemma ay nagmumula sa Gemini Diffusion ng Google DeepMind, na naging unang nagpapakilala ng mga pagkakasunod-sunod batay sa diffusion para sa epektibong pagbuo ng teksto.

Optimized na ang DiffusionGemma para sa mga platform ng NVIDIA, kabilang ang RTX PRO at DGX systems, kaya maaaring i-run ng mga developer ang modelong ito sa lokal na may accelerated na performance替代 ng pagsuporta lamang sa cloud APIs.

Ang mga pagtataya sa benchmark ay nagpapakita na ang DiffusionGemma ay gumagana nang kasing-kahalagahan sa mas malalaking modelo habang nananatili sa kanyang pangunahing pagiging mabilis. Para sa paghahambing, ang Gemini Diffusion ay nakakuha ng 30.9% kumpara sa 28.5% ng Gemini 2.0 Flash-Lite sa mga nasusuri na benchmark.

Ano ang ibig sabihin nito para sa landscape ng AI at mga investor

Para sa mga negosyo na nakadepende sa mabilis na pagbuo ng teksto, ang epekto ay malinaw. Ang mga pipeline ng paggawa ng nilalaman, automation ng serbisyo sa kliyente, mga kasangkapan sa pagbuo ng code, at anumang aplikasyon kung saan mahalaga ang latency ay maaaring makatanggap ng 4x na pagpapabilis. Mas mabilis na inference ay nangangahulugan din ng mas mababang gastos sa compute bawat query, na direktang nakakaapekto sa ekonomiks ng pag-deploy ng AI sa malaking iskala.

Ang pangunahang panganib ay ang pagtatanggap. Maaaring mag-benchmark nang mabuti ang isang modelo sa mga kontroladong pagtataya at nananatiling nahihirapan sa kakaibang, hindi maipalagay na mga hiling ng real-world deployment. Ang katotohanan na ito ay bukas at pinapabuti para sa malawakang magagamit na NVIDIA hardware ay alisin ang kahit anong dalawang karaniwang hadlang upang malaman.