Andrej Karpathy dự đoán tương tác AI sẽ phát triển thành 'Video thần kinh tương tác'

Theo giám sát của Beating, Andrej Karpathy – thành viên sáng lập OpenAI và người đề xuất khái niệm “vibe coding” – đã đăng bài hôm nay ủng hộ mạnh mẽ cách tiếp cận của nhóm Claude Code nhằm thay thế Markdown bằng HTML. Ông không chỉ đồng tình mạnh mẽ với sự thay đổi này, mà còn vạch ra lộ trình phát triển của giao diện tương tác AI, dự đoán rằng sau nhiều vòng lặp hình thái, đầu ra cuối cùng của các mô hình lớn sẽ là “neural video tương tác”. Karpathy cho rằng, sự tiến hóa của định dạng đầu ra AI đã bắt đầu từ văn bản thuần túy cực kỳ khó đọc, tiến hóa sang Markdown hiện tại, và giờ đang dần trở thành tiêu chuẩn mới với độ linh hoạt định dạng cao là HTML. Trong tương lai, sẽ còn trải qua nhiều thế hệ trung gian (4, 5, 6, v.v.) trước khi đạt đến điểm kết thúc (n): neural video tương tác được tạo ra trực tiếp bởi mô hình khuếch tán. Về hình dạng cụ thể của hình thái này, ông trực tiếp đề cập đến bản mẫu render cấp pixel không mã hóa gần đây do cựu nghiên cứu viên OpenAI công bố – Flipbook. Cơ sở lý luận đằng sau xu hướng tiến hóa này là băng thông vật lý của não người. Karpathy chỉ ra rằng khoảng một phần ba não bộ con người là bộ xử lý song song chuyên dụng cho tín hiệu hình ảnh – đây chính là “cao tốc 10 làn đường” để truyền thông tin vào não bộ. Điều này xác định giải pháp tối ưu cho tương tác kết hợp người-máy: cách hiệu quả nhất để con người truyền lệnh cho AI (Input) là giọng nói, trong khi cách hiệu quả nhất để AI phản hồi kết quả cho con người (Output) là hình ảnh có băng thông cao (hình ảnh, hoạt họa hoặc video). Ngoài ra, ông nhấn mạnh rằng đầu vào hiện tại vẫn còn những điểm nghẽn rõ rệt: hiện nay chỉ dựa vào giọng nói hoặc văn bản vẫn chưa đủ, cần bổ sung khả năng chỉ dẫn không gian tương tự như khi hai người ngồi cạnh nhau nhìn màn hình máy tính và dùng tay chỉ vào vùng cụ thể trên màn hình. Là bước đột phá cải thiện trải nghiệm trong giai đoạn hiện tại, ông khuyến nghị mạnh mẽ người dùng thêm cụm từ “hãy định dạng phản hồi dưới dạng HTML” vào cuối lời nhắc.