Ipinaglunsad ng Decart ang World Model Oasis 3 para sa pag-simula ng autonomous driving

Binibigkas ng CoinDesk:

Ang AI startup na Decart ay naglunsad ng bagong henerasyon ng world model na Oasis 3, na nakatuon sa pag-simulate ng mga skenaryo para sa autonomous driving. Nais ng kumpanya na muna maglingkod sa mga kumpanya sa autonomous driving na nangangailangan ng malawakang pagsubok sa mga makabagong sitwasyon sa kalsada, at pagkatapos ay palawakin ito sa robotics at iba pang physical AI applications, habang iniiwan ang API mula sa paglunsad upang taratarin ang mga developer na magbuo ng mga produkto batay sa world model.

Para sa autonomous driving at mga developer

Sinabi ni Dean Leitersdorf, co-founder at CEO ng Decart, na nais ng kumpanya na gawing platform na may kakayahang i-program na mundo, hindi lamang isang proyektong pagsusuri na demo. Ayon sa kumpanya, higit sa 100,000 na developer ang umiiral na gumagamit, kung saan ang marami ay nagsagawa na ng mga produkto para sa e-commerce at live streaming batay sa kanilang real-time video model na Lucy.

Ang Oasis 3 ay binuod sa base model na ito, na nagpapakita ng karagdagang pag-unlad ng Decart patungo sa physical AI. Ayon sa kumpanya, ang produkto ay binabayaran per segundo, na may standard na presyo na $0.02 bawat segundo, habang ang presyo para sa mga enterprise customer ay nakabatay sa partikular na paggamit.

Nagtatampok ng mahabang pagbuo at realistiko na imahe

Ang Decart ay naniniwala na ang pangunahing pagkakaiba ng Oasis 3 ay ang realismo ng larawan at ang kakayahang mag-generate nang patuloy. Ang modelo ay nakakagawa ng mga lingkod ng pagmamaneho na may maraming camera, kabilang ang harap at mga panig, para sa pagtuturo at pagsubok ng mga sistema ng autonomous driving. Sa pagkakaiba sa iba pang mga produkto na nag-aalok lamang ng limitadong demo, pinapahintulutan ng Oasis 3 ang mga developer na mag-generate nang patuloy ng mga skena upang sakop ang mas maraming edge cases.

Ipinapalagay ng kumpanya ang kakayahang ito sa kanyang panaing software stack na DOS. Sinabi ni Decart na ang optimized software na ito ay nagpapahintulot sa mga model na magtrabaho nang mas epektibo sa mga hardware ng Nvidia, Amazon, at Google, kaya bumababa ang gastos sa inference. Sinabi ni Leitersdorf na sa pamamagitan ng integrated optimization ng software at hardware, ang operating costs ng kumpanya ay maaaring mas mababa ng isang orden ng magnitude kumpara sa ibang mga kalahati sa industriya.

Lumalakas ang kompetisyon, mas mabilis ang pagpapatupad pagkatapos ng pagsasapilitan

Ang world model赛道 ay malinaw na umusbong sa nakaraang taon. Bago ito, inilabas ng Google ang Genie 3 na research preview, inilunsad ni Li Fei-Fei ang World Labs na may Marble para sa mga komersyal na aplikasyon, at ang mga kumpanya sa paggawa ng video tulad ng Luma at Runway ay nagpapalawak din ng kanilang mga video model na may physical awareness patungo sa direksyon ng world models.

Sa ilang ilang linggo bago ang paglabas ng Oasis 3, natapos ng Decart, na itinatag dalawang taon na ang nakalipas, ang isang pagsasakop na halagang $3 bilyon, na may halagang malapit sa $40 bilyon. Sinabi ng kumpanya na ang pagsasakop na ito ay galing sa mabilis na paglago ng pangangailangan sa e-commerce, live streaming, at physical AI. Kasali sa pagpapautang ang Toyota, Adobe, eBay, at ang umiiral na investor na Nvidia, na maaaring maging mga potensyal na kliyente nito.

Nakakaranas pa rin ng distorsyon pagkatapos ng mahabang pagpapatakbo

Gayon, mayroon pa ring malinaw na limitasyon ang Oasis 3. Ayon sa praktikal na pagsubok ng TechCrunch, ang modelo ay maaaring magbuo nang maayos ng unang eksena na nauugnay sa prompt, ngunit habang patuloy na gumagalaw ang user sa paligid, ang paksa ng eksena ay tumutunaw nang paulit-ulit. Halimbawa, ang unang nabuo ay tanawin ng New York, ngunit pagkatapos ng patuloy na paggalaw, ang paligid ay nagsisimulang maging karaniwang daanan ng mga kanluraning lungsod.

Ang mga pagsubok ay nagpakita rin na ang modelo ay hindi matatag sa spatial continuity. Kapag bumabalik ang user sa dating krusada, maaaring nawala na ang orihinal na eksena at nalitan ng bagong kapaligiran. Ang pagtugon sa kontrol ng sasakyan ay hindi rin sapat na matatag, at minsan ay naliligaw ang direksyon ng pagmamaneho mula sa pagkilos ng user.

Ang pisikal na pagkakatugma ay patuloy na isang hamon

Ang isa pang problema ay ang physics ng collision. Sa mga pagsubok, ang mga sasakyan ay minsan ay direktang lumalampas sa ibang mga sasakyan, na nagpapakita na ang modelo ay hindi pa nakakapag-simula nang maayos ng totoong mga relasyon sa physics. Tinawag ni Leitersdorf ito bilang isang mahalagang hamon sa kasalukuyang pag-aaral, at sinabi niya na ang sobrang dami ng “normal na pagmamaneho” kumpara sa mga skenaryo ng aksidente sa training data ay isa rin sa mga dahilan.

Ipinaliwanag niya na ang Oasis 3 ay gumagamit ng paraan na autoregressive upang mag-generate ng nilalaman frame by frame, kung saan bawat frame ay nagsisilbing batayan sa nakaraang resulta upang matukoy ang susunod na frame, na nangangailangan ng malaking computing power at haba ng konteksto. Ayon sa kanya, bawat frame ay tumutugma sa halos 8,000 na token, at sa bilis ng pag-generate na ilang dekada bawat segundo, mabilis na mabubuo ang kontekstong window. Kasalukuyang pinag-aaralan ng kumpanya ang mas mahabang konteksto at mas epektibong paraan ng pag-compress ng memorya.

Inaasahan ng Leitersdorf na ang susunod na bersyon ay magkakaroon ng bahagyang pagpapabuti sa mga problema sa konsistensya. Sa panahong iyon, maaari nang gumawa ng mundo ang mga user batay sa mga video ng kapaligiran at hindi sa isang iisang larawan.