Nagbuhos si Andrej Karpathy na magiging 'Interactive Neural Video' ang pag-interact ng AI

icon MarsBit
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Si Andrej Karpathy, co-founder ng OpenAI, ay nagbahagi ng kanyang pananaw para sa hinaharap ng interaksyon sa pagitan ng AI at tao, na nagtataya na ang "interactive neural video" ay magiging pangunahing anyo ng output. Sinasabi niya na mas nauugnay ang visual media sa pagproseso ng utak ng tao kaysa teksto. Ang kanyang mga komento, na binigyang-pansin sa balita tungkol sa AI + crypto, ay nagpapakita ng paglipat mula sa Markdown patungo sa HTML at higit pa. Malapit na sinusubaybayan ng mga balita sa crypto ang kanyang mga pananaw habang patuloy na nag-uugnay ang AI at blockchain.

Ayon sa pagmamasid ng Beating, si Andrej Karpathy, isang tagapagtatag ng OpenAI at tagapagbigay ng konsepto ng “vibe coding”, ay nag-post ngayon upang suportahan ang pagkilos ng team ng Claude Code na gamitin ang HTML para palitan ang Markdown. Hindi lamang sumasang-ayon siya nang malakas sa pagbabagong ito, kundi ipinakita niya rin ang roadmap ng pag-unlad ng mga interaksyonal na interface ng AI, na hinuhulaan na ang huling anyo ng output ng malalaking modelo ay magiging “interactive neural video” matapos ang maraming pagbabagong anyo. Naniniwala si Karpathy na ang pag-unlad ng anyo ng output ng AI ay nagsimula sa mga kakaunting maunawaang teksto, lumipat sa Markdown ngayon, at patungo sa pagiging bagong pamantayan—ang HTML na may mataas na pagkakasunod-sunod at pagkakabuo. Sa hinaharap, magkakaroon pa ito ng maraming henerasyon sa gitna (4, 5, 6, atbp.) bago makarating sa huling anyo (n): interactive neural video na direkta na ginawa ng diffusion model. Para sa eksaktong anyo nito, direktang binanggit niya ang latest na prototype na walang code na ipinakilala ng dating researcher ng OpenAI, ang Flipbook. Ang pundasyon ng trend na ito ay ang pisikal na bandwidth ng utak. Sinabi ni Karpathy na ang tatlóan ng utak ng tao ay espesyalisado bilang parallel processor para sa pagtrato sa mga visual signal—ito ay isang “ten-lane highway” para sa pagpapadala ng impormasyon sa utak. Ito ang nagpapasiya na ang pinakamahusay na solusyon para sa interaksyon sa pagitan ng tao at AI: ang pinakamabisang paraan upang ipaalam sa AI ang mga utos (Input) ay ang voice, samantalang ang pinakamabisang paraan upang ibalik ang resulta (Output) ay ang mataas na bandwidth na visual (larawan, animation, o video). Bukod dito, binanggit niya na mayroon pa ring malaking problema sa input end—ang paggamit lamang ng voice o text ay hindi sapat, at kailangan pang idagdag ang kakayahang magbigay ng spatial cues, tulad ng pagtuturo sa isang partikular na lugar sa screen habang nagkikita-kita sa isang computer. Bilang isang shortcut upang mapabuti ang karanasan sa kasalukuyan, malakas niyang inirerekumenda sa mga user na dagdagan ang kanilang prompt sa huli ng “Structure response as HTML”.

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.