Nagbuhos si Andrej Karpathy na magiging 'Interactive Neural Video' ang pag-interact ng AI

Ayon sa pagmamasid ng Beating, si Andrej Karpathy, isang tagapagtatag ng OpenAI at tagapagbigay ng konsepto ng “vibe coding”, ay nag-post ngayon upang suportahan ang pagkilos ng team ng Claude Code na gamitin ang HTML para palitan ang Markdown. Hindi lamang sumasang-ayon siya nang malakas sa pagbabagong ito, kundi ipinakita niya rin ang roadmap ng pag-unlad ng mga interaksyonal na interface ng AI, na hinuhulaan na ang huling anyo ng output ng malalaking modelo ay magiging “interactive neural video” matapos ang maraming pagbabagong anyo. Naniniwala si Karpathy na ang pag-unlad ng anyo ng output ng AI ay nagsimula sa mga kakaunting maunawaang teksto, lumipat sa Markdown ngayon, at patungo sa pagiging bagong pamantayan—ang HTML na may mataas na pagkakasunod-sunod at pagkakabuo. Sa hinaharap, magkakaroon pa ito ng maraming henerasyon sa gitna (4, 5, 6, atbp.) bago makarating sa huling anyo (n): interactive neural video na direkta na ginawa ng diffusion model. Para sa eksaktong anyo nito, direktang binanggit niya ang latest na prototype na walang code na ipinakilala ng dating researcher ng OpenAI, ang Flipbook. Ang pundasyon ng trend na ito ay ang pisikal na bandwidth ng utak. Sinabi ni Karpathy na ang tatlóan ng utak ng tao ay espesyalisado bilang parallel processor para sa pagtrato sa mga visual signal—ito ay isang “ten-lane highway” para sa pagpapadala ng impormasyon sa utak. Ito ang nagpapasiya na ang pinakamahusay na solusyon para sa interaksyon sa pagitan ng tao at AI: ang pinakamabisang paraan upang ipaalam sa AI ang mga utos (Input) ay ang voice, samantalang ang pinakamabisang paraan upang ibalik ang resulta (Output) ay ang mataas na bandwidth na visual (larawan, animation, o video). Bukod dito, binanggit niya na mayroon pa ring malaking problema sa input end—ang paggamit lamang ng voice o text ay hindi sapat, at kailangan pang idagdag ang kakayahang magbigay ng spatial cues, tulad ng pagtuturo sa isang partikular na lugar sa screen habang nagkikita-kita sa isang computer. Bilang isang shortcut upang mapabuti ang karanasan sa kasalukuyan, malakas niyang inirerekumenda sa mga user na dagdagan ang kanilang prompt sa huli ng “Structure response as HTML”.