Andrej Karpathy dự đoán tương tác AI sẽ phát triển thành 'Video thần kinh tương tác'

icon MarsBit
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Andrej Karpathy, đồng sáng lập OpenAI, đã chia sẻ tầm nhìn của ông về tương lai của tương tác giữa AI và con người, dự đoán rằng “video thần kinh tương tác” sẽ trở thành định dạng đầu ra chính. Ông cho rằng phương tiện trực quan phù hợp hơn với cách bộ não con người xử lý thông tin so với văn bản. Những nhận xét của ông, được các tin tức về AI và tiền mã hóa đề cập, nhấn mạnh sự chuyển dịch từ Markdown sang HTML và hơn thế nữa. Các nền tảng tin tức tiền mã hóa đang theo dõi sát sao những hiểu biết của ông khi AI và blockchain tiếp tục giao thoa.

Theo giám sát của Beating, Andrej Karpathy – thành viên sáng lập OpenAI và người đề xuất khái niệm “vibe coding” – đã đăng bài hôm nay ủng hộ mạnh mẽ cách tiếp cận của nhóm Claude Code nhằm thay thế Markdown bằng HTML. Ông không chỉ đồng tình mạnh mẽ với sự thay đổi này, mà còn vạch ra lộ trình phát triển của giao diện tương tác AI, dự đoán rằng sau nhiều vòng lặp hình thái, đầu ra cuối cùng của các mô hình lớn sẽ là “neural video tương tác”. Karpathy cho rằng, sự tiến hóa của định dạng đầu ra AI đã bắt đầu từ văn bản thuần túy cực kỳ khó đọc, tiến hóa sang Markdown hiện tại, và giờ đang dần trở thành tiêu chuẩn mới với độ linh hoạt định dạng cao là HTML. Trong tương lai, sẽ còn trải qua nhiều thế hệ trung gian (4, 5, 6, v.v.) trước khi đạt đến điểm kết thúc (n): neural video tương tác được tạo ra trực tiếp bởi mô hình khuếch tán. Về hình dạng cụ thể của hình thái này, ông trực tiếp đề cập đến bản mẫu render cấp pixel không mã hóa gần đây do cựu nghiên cứu viên OpenAI công bố – Flipbook. Cơ sở lý luận đằng sau xu hướng tiến hóa này là băng thông vật lý của não người. Karpathy chỉ ra rằng khoảng một phần ba não bộ con người là bộ xử lý song song chuyên dụng cho tín hiệu hình ảnh – đây chính là “cao tốc 10 làn đường” để truyền thông tin vào não bộ. Điều này xác định giải pháp tối ưu cho tương tác kết hợp người-máy: cách hiệu quả nhất để con người truyền lệnh cho AI (Input) là giọng nói, trong khi cách hiệu quả nhất để AI phản hồi kết quả cho con người (Output) là hình ảnh có băng thông cao (hình ảnh, hoạt họa hoặc video). Ngoài ra, ông nhấn mạnh rằng đầu vào hiện tại vẫn còn những điểm nghẽn rõ rệt: hiện nay chỉ dựa vào giọng nói hoặc văn bản vẫn chưa đủ, cần bổ sung khả năng chỉ dẫn không gian tương tự như khi hai người ngồi cạnh nhau nhìn màn hình máy tính và dùng tay chỉ vào vùng cụ thể trên màn hình. Là bước đột phá cải thiện trải nghiệm trong giai đoạn hiện tại, ông khuyến nghị mạnh mẽ người dùng thêm cụm từ “hãy định dạng phản hồi dưới dạng HTML” vào cuối lời nhắc.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.