安德烈·卡帕西預測，AI 互動將演變為「互動式神經視頻」

根據動察 Beating 監測，「vibe coding」概念提出者、OpenAI 創始成員 Andrej Karpathy 今天發文力挺 Claude Code 團隊提倡的「用 HTML 取代 Markdown」做法。他不僅強烈贊同這一改變，還勾勒出了 AI 交互界面的演進路線圖，預測大模型在經歷多輪形態迭代後，輸出的終極形態將是「交互式神經視頻」。Karpathy 認為，AI 輸出格式的演變從最早極難閱讀的純文本，進化到如今的 Markdown，再到正逐漸成為新標準、具有極高排版靈活性的 HTML。未來還將經歷多代中間形態（4、5、6 等），最終抵達終局（n）：由擴散模型直接生成的交互式神經視頻。對於這一形態的具體模樣，他直接點名了前 OpenAI 研究員近期發布的無代碼像素級渲染原型 Flipbook。這一演進趨勢的底層邏輯在於人腦的物理頻寬。Karpathy 指出，人類大腦有約三分之一是專用於處理視覺信號的並行處理器，這是向人腦輸入信息的「十車道高速公路」。這就決定了人機融合交互的最優解：人類向 AI 傳達指令（Input）的最佳方式是極具溝通效率的語音，而 AI 向人類反饋結果（Output）的最佳方式則是高頻寬的視覺畫面（圖像、動畫或視頻）。此外，他指出當前的輸入端仍存在明顯痛點，目前只靠語音或文本依然不夠，急需補齊類似兩人並排看電腦時「指著螢幕特定區域比劃」的空間指示能力。作為现阶段提升體驗的捷徑，他強烈建議用戶直接在提示詞末尾加上「將回覆結構化為 HTML」。