Nvidia เพิ่งเปิดตัวสิ่งที่เรียกว่าโอเมก้าโมเดลเปิดตัวแรกที่ออกแบบมาโดยเฉพาะสำหรับปัญญาประดิษฐ์ทางกายภาพ Cosmos 3 ซึ่งเปิดเผยเมื่อวันที่ 31 พฤษภาคม ผสานความสามารถในการให้เหตุผล การสร้างโลก และการกระทำเข้าไว้ในระบบเดียวที่ออกแบบมาเพื่อช่วยหุ่นยนต์และยานยนต์อัตโนมัติให้เข้าใจโลกแห่งความเป็นจริงที่ยุ่งเหยิงและไม่สามารถคาดเดาได้
Cosmos 3 สามารถสร้างลำดับวิดีโอที่คาดการณ์ได้สูงสุด 30 วินาทีจากอินพุตข้อความ รูปภาพ หรือวิดีโอ ทำให้หุ่นยนต์สามารถ “จินตนาการ” ได้ว่าจะเกิดอะไรขึ้นต่อไปในสภาพแวดล้อมของมันก่อนที่จะเคลื่อนไหวตัวขับเคลื่อนใดๆ
สิ่งที่ Cosmos 3 ทำจริง
Cosmos 3 ใช้สถาปัตยกรรม Mixture of Transformers ที่ Nvidia เรียก เพื่อประมวลผลข้อมูลนำเข้าหลายประเภทพร้อมกัน โมเดลนี้รองรับโหมดเสียงและการกระทำ หมายความว่าหุ่นยนต์ที่ติดตั้ง Cosmos 3 สามารถประมวลผลสิ่งที่มันเห็น ได้ยิน และกระทำภายในกรอบงานเดียวกัน
การประยุกต์ใช้งานจริงมุ่งเน้นที่สิ่งที่เรียกว่าการเรียนรู้นโยบายหุ่นยนต์ Cosmos 3 ทำหน้าที่เป็นโครงสร้างพื้นฐานสำหรับสิ่งที่ Nvidia เรียกว่า World Action Models หรือ WAMs ซึ่งช่วยให้ตัวแทนที่มีร่างกายสามารถทำงานได้ในสภาพแวดล้อมที่ไม่เคยพบมาก่อน
การสร้างบนรากฐานที่วางไว้ในปี 2025
Nvidia เปิดตัวรุ่นก่อนหน้าหลายรุ่นตลอดปี 2025 รวมถึงรุ่นที่เน้นการพยากรณ์ การเรียนรู้แบบถ่ายโอน และการให้เหตุผล โมเดลก่อนหน้าเหล่านี้ได้ดึงดูดลูกค้าที่จริงจังแล้ว
Figure AI บริษัทหุ่นยนต์รูปแบบมนุษย์ ได้นำเทคโนโลยี Cosmos มาใช้สำหรับหุ่นยนต์สองขาของตน โดย Agility Robotics ผู้เล่นด้านหุ่นยนต์รูปแบบมนุษย์อีกรายก็ทำเช่นเดียวกัน ในด้านยานยนต์อัตโนมัติ Uber, Waabi และ Wayve ต่างใช้เวอร์ชัน Cosmos ก่อนหน้าในการพัฒนาการขับขี่อัตโนมัติของตน
สิ่งนี้หมายถึงอะไรสำหรับนักลงทุนและตลาดโดยรวม
สำหรับอุตสาหกรรมหุ่นยนต์โดยเฉพาะ ลักษณะเปิดของ Cosmos 3 อาจเร่งการรับรองใช้งานจากผู้เล่นรายย่อยที่ไม่มีทรัพยากรในการสร้างโมเดลโลกของตนเองตั้งแต่เริ่มต้น การสร้างข้อมูลสังเคราะห์ ซึ่งเป็นหนึ่งในความสามารถหลักของโมเดลนี้ ช่วยแก้ไขอุปสรรคที่ใหญ่ที่สุดในประวัติศาสตร์ของการพัฒนาหุ่นยนต์: การได้รับข้อมูลการฝึกอบรมจากโลกจริงในปริมาณเพียงพอ โดยไม่ต้องทำลายฮาร์ดแวร์ที่มีมูลค่าสูงในกระบวนการ

