แอนเดรย์ คาร์พาธี ทำนายว่าการมีปฏิสัมพันธ์กับปัญญาประดิษฐ์จะพัฒนาไปสู่ "วิดีโอประสาทแบบโต้ตอบ"

icon MarsBit
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
แอนเดรย์ คาร์พาธี ผู้ร่วมก่อตั้ง OpenAI ได้แบ่งปันวิสัยทัศน์ของเขาเกี่ยวกับอนาคตของการมีปฏิสัมพันธ์ระหว่าง AI กับมนุษย์ โดยคาดการณ์ว่า “วิดีโอเชิงประสาทแบบโต้ตอบ” จะกลายเป็นรูปแบบเอาต์พุตหลัก เขาโต้แย้งว่าสื่อเชิงภาพสอดคล้องกับกระบวนการประมวลผลของสมองมนุษย์ได้ดีกว่าข้อความ ความคิดเห็นของเขาที่ได้รับการรายงานในข่าว AI + crypto ชี้ให้เห็นถึงการเปลี่ยนแปลงจาก Markdown เป็น HTML และมากกว่านั้น แหล่งข่าว crypto ติดตามความเข้าใจของเขาอย่างใกล้ชิด เนื่องจาก AI และบล็อกเชนยังคงมีจุดตัดกันอย่างต่อเนื่อง

ตามการติดตามของ Beating, Andrej Karpathy ผู้ริเริ่มแนวคิด “vibe coding” และหนึ่งในผู้ก่อตั้ง OpenAI ได้โพสต์บทความวันนี้เพื่อสนับสนุนทีม Claude Code ที่เสนอให้ใช้ HTML แทน Markdown เขาไม่เพียงแต่เห็นด้วยอย่างแรงกล้ากับการเปลี่ยนแปลงนี้ แต่ยังวาดภาพเส้นทางการพัฒนาอินเทอร์เฟซการโต้ตอบของ AI โดยคาดการณ์ว่าหลังจากผ่านหลายรอบการเปลี่ยนรูปแบบ รูปแบบสุดท้ายที่โมเดลขนาดใหญ่จะส่งออกคือ “神经วิดีโอแบบโต้ตอบ” Karpathy มองว่ารูปแบบการส่งออกของ AI พัฒนาจากข้อความบริสุทธิ์ที่อ่านยากในยุคแรก ไปสู่ Markdown ในปัจจุบัน และกำลังค่อยๆ เป็นมาตรฐานใหม่ที่มีความยืดหยุ่นในการจัดรูปแบบสูงคือ HTML อนาคตจะผ่านรูปแบบกลางหลายรุ่น (4, 5, 6 ฯลฯ) ก่อนไปถึงจุดสุดท้าย (n): วิดีโอแบบโต้ตอบที่สร้างโดยโมเดลการแพร่กระจายโดยตรง เขาชี้ไปที่ต้นแบบ Flipbook ที่นักวิจัยเก่าของ OpenAI เพิ่งเปิดตัวซึ่งเป็นต้นแบบการเรนเดอร์ระดับพิกเซลแบบไม่ต้องเขียนโค้ด เพื่อแสดงลักษณะเฉพาะของรูปแบบนี้ ตรรกะพื้นฐานของการเปลี่ยนแปลงนี้อยู่ที่แบนด์วิดธ์ทางกายภาพของสมองมนุษย์ Karpathy ชี้ว่าสมองมนุษย์ประมาณหนึ่งในสามเป็นโปรเซสเซอร์แบบขนานที่ใช้ประมวลผลสัญญาณภาพ ซึ่งเป็น “ทางด่วนสิบเลน” สำหรับการส่งข้อมูลเข้าสู่สมองมนุษย์ สิ่งนี้กำหนดว่าทางออกที่ดีที่สุดสำหรับการโต้ตอบแบบรวมมนุษย์กับ AI คือ: วิธีที่มีประสิทธิภาพที่สุดในการส่งคำสั่งจากมนุษย์ไปยัง AI (Input) คือเสียงพูดที่มีประสิทธิภาพในการสื่อสารสูง ในขณะที่วิธีที่ดีที่สุดในการตอบกลับผลลัพธ์จาก AI ไปยังมนุษย์ (Output) คือภาพทางสายตาที่มีแบนด์วิดธ์สูง (ภาพนิ่ง การเคลื่อนไหว หรือวิดีโอ) นอกจากนี้ เขายังชี้ให้เห็นว่ายังคงมีจุดอ่อนชัดเจนในฝั่งการรับข้อมูลปัจจุบัน เพราะการใช้เสียงหรือข้อความเพียงอย่างเดียวยังไม่เพียงพอ และจำเป็นต้องเติมเต็มความสามารถในการชี้ชัดพื้นที่เฉพาะบนหน้าจอเหมือนเวลาสองคนนั่งดูคอมพิวเตอร์ข้างๆ กัน ในฐานะทางลัดเพื่อปรับปรุงประสบการณ์ในขั้นตอนปัจจุบัน เขาแนะนำอย่างยิ่งให้ผู้ใช้เพิ่ม “จัดโครงสร้างคำตอบเป็น HTML” ไว้ท้ายคำสั่ง

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา