แอนเดรย์ คาร์พาธี ทำนายว่าการมีปฏิสัมพันธ์กับปัญญาประดิษฐ์จะพัฒนาไปสู่ "วิดีโอประสาทแบบโต้ตอบ"

ตามการติดตามของ Beating, Andrej Karpathy ผู้ริเริ่มแนวคิด “vibe coding” และหนึ่งในผู้ก่อตั้ง OpenAI ได้โพสต์บทความวันนี้เพื่อสนับสนุนทีม Claude Code ที่เสนอให้ใช้ HTML แทน Markdown เขาไม่เพียงแต่เห็นด้วยอย่างแรงกล้ากับการเปลี่ยนแปลงนี้ แต่ยังวาดภาพเส้นทางการพัฒนาอินเทอร์เฟซการโต้ตอบของ AI โดยคาดการณ์ว่าหลังจากผ่านหลายรอบการเปลี่ยนรูปแบบ รูปแบบสุดท้ายที่โมเดลขนาดใหญ่จะส่งออกคือ “神经วิดีโอแบบโต้ตอบ” Karpathy มองว่ารูปแบบการส่งออกของ AI พัฒนาจากข้อความบริสุทธิ์ที่อ่านยากในยุคแรก ไปสู่ Markdown ในปัจจุบัน และกำลังค่อยๆ เป็นมาตรฐานใหม่ที่มีความยืดหยุ่นในการจัดรูปแบบสูงคือ HTML อนาคตจะผ่านรูปแบบกลางหลายรุ่น (4, 5, 6 ฯลฯ) ก่อนไปถึงจุดสุดท้าย (n): วิดีโอแบบโต้ตอบที่สร้างโดยโมเดลการแพร่กระจายโดยตรง เขาชี้ไปที่ต้นแบบ Flipbook ที่นักวิจัยเก่าของ OpenAI เพิ่งเปิดตัวซึ่งเป็นต้นแบบการเรนเดอร์ระดับพิกเซลแบบไม่ต้องเขียนโค้ด เพื่อแสดงลักษณะเฉพาะของรูปแบบนี้ ตรรกะพื้นฐานของการเปลี่ยนแปลงนี้อยู่ที่แบนด์วิดธ์ทางกายภาพของสมองมนุษย์ Karpathy ชี้ว่าสมองมนุษย์ประมาณหนึ่งในสามเป็นโปรเซสเซอร์แบบขนานที่ใช้ประมวลผลสัญญาณภาพ ซึ่งเป็น “ทางด่วนสิบเลน” สำหรับการส่งข้อมูลเข้าสู่สมองมนุษย์ สิ่งนี้กำหนดว่าทางออกที่ดีที่สุดสำหรับการโต้ตอบแบบรวมมนุษย์กับ AI คือ: วิธีที่มีประสิทธิภาพที่สุดในการส่งคำสั่งจากมนุษย์ไปยัง AI (Input) คือเสียงพูดที่มีประสิทธิภาพในการสื่อสารสูง ในขณะที่วิธีที่ดีที่สุดในการตอบกลับผลลัพธ์จาก AI ไปยังมนุษย์ (Output) คือภาพทางสายตาที่มีแบนด์วิดธ์สูง (ภาพนิ่ง การเคลื่อนไหว หรือวิดีโอ) นอกจากนี้ เขายังชี้ให้เห็นว่ายังคงมีจุดอ่อนชัดเจนในฝั่งการรับข้อมูลปัจจุบัน เพราะการใช้เสียงหรือข้อความเพียงอย่างเดียวยังไม่เพียงพอ และจำเป็นต้องเติมเต็มความสามารถในการชี้ชัดพื้นที่เฉพาะบนหน้าจอเหมือนเวลาสองคนนั่งดูคอมพิวเตอร์ข้างๆ กัน ในฐานะทางลัดเพื่อปรับปรุงประสบการณ์ในขั้นตอนปัจจุบัน เขาแนะนำอย่างยิ่งให้ผู้ใช้เพิ่ม “จัดโครงสร้างคำตอบเป็น HTML” ไว้ท้ายคำสั่ง