จากโค้ดสู่การรับรู้: การสำรวจอย่างลึกซึ้งเกี่ยวกับวิวัฒนาการของสมองหุ่นยนต์

ผู้เขียน: Matt White, หัวหน้าเทคโนโลยีด้าน AI ระดับโลกของ Linux Foundation

แปลโดย: Felix, PANews

หุ่นยนต์รูปคน

หวังซิงซิง (ซีอีโอของ Unitree Technologies) และ มัตต์ ไวท์

เมื่อไม่กี่สัปดาห์ก่อนในเซี่ยงไฮ้ เพื่อนร่วมเดินทางคนหนึ่งของฉัน (เป็นคนฉลาด ชอบอ่านข่าวและสังเกตสิ่งต่างๆ แต่ไม่ค่อยเข้าใจเทคโนโลยีหุ่นยนต์) ได้ถามคำถามที่ฉันรอคอยมาตลอดการเดินทางนี้ระหว่างมื้อค่ำ

สุนัขหุ่นยนต์ที่วิ่งไปทั่ว หุ่นยนต์รูปคนที่แสดงกังฟูบนเวทีสาธิตในสำนักงานของ Unitree และแขนกลที่พับเสื้อผ้าที่เราเห็น — มันทำงานได้อย่างไร? มันถูกขับเคลื่อนโดยโมเดลภาษาขนาดใหญ่ (LLM) หรือไม่? มันทำงานอย่างไรกันแน่? มีโมเดลภาษาบางอย่างที่ควบคุมการเคลื่อนไหวของมันอยู่หรือไม่?

นี่เป็นคำถามที่ดีมาก และพูดอย่างตรงไปตรงมา: ในบางระดับก็ใช่ แต่เรื่องจริงนั้นน่าสนใจกว่านั้นมาก หุ่นยนต์ที่คุณเห็นบนโซเชียลมีเดียไม่ได้เป็น ChatGPT ที่สวมเปลือกโลหะ พวกมันทำงานด้วยชุดเทคโนโลยี (AI หลายชั้นที่ทำงานร่วมกัน) ชุดเทคโนโลยีนี้เปลี่ยนแปลงไปมากกว่าสามทศวรรษที่ผ่านมาในช่วงสามปีที่ผ่านมา โมเดลภาษาเป็นเพียงส่วนหนึ่งของมัน โมเดลภาพ โมเดลการเคลื่อนไหว ต้นไม้พฤติกรรม วงควบคุมแบบคลาสสิก และระบบที่กำลังเกิดขึ้นใหม่ที่เรียกว่า “โมเดลโลก” ก็เป็นส่วนสำคัญเช่นกัน และ “โมเดลโลก” อาจเป็นสิ่งที่สำคัญที่สุดในการพัฒนาทั้งหมด

นี่คือบทความยาวที่จะเริ่มตั้งแต่ต้น แล้วค่อยๆ เล่าถึงการเปลี่ยนแปลงครั้งสำคัญแต่ละครั้ง จนมาถึงขั้นตอนปัจจุบัน: หุ่นยนต์ไม่เพียงแต่สามารถตอบสนองต่อโลกได้ แต่ยังสามารถจินตนาการโลกได้อีกด้วย

หนึ่ง: ยุคก่อน LLM: เมื่อหุ่นยนต์ยังเป็นเพียงซอฟต์แวร์

หลายทศวรรษที่ผ่านมา การผลิตหุ่นยนต์หมายถึงการเขียนโค้ดจำนวนมาก และโค้ดส่วนใหญ่แทบทั้งหมดไม่จำเป็นต้องเรียนรู้

หุ่นยนต์อุตสาหกรรมแบบดั้งเดิมเป็นโครงสร้างแบบหอคอยที่ประกอบด้วยโมดูลที่ออกแบบอย่างพิถีพิถัน เช่น แขนกลสีส้มที่ใช้เชื่อมชุดพื้นรถโตโยต้าในทศวรรษที่ 90 หรือ BigDog ของ Boston Dynamics ในช่วงต้นทศวรรษ 2000

การรับรู้: กรองภาพจากกล้อง ตรวจจับขอบ และใช้การจับคู่เรขาคณิตเพื่อระบุตำแหน่งของชิ้นงาน
การประมาณสถานะ: การรวมข้อมูลจากเอนโคเดอร์ล้อ แกนหมุน และเซนเซอร์วัดความเร่ง (การรวมข้อมูลเซนเซอร์) เพื่อกำหนดตำแหน่งและความเร็วในการเคลื่อนที่ของหุ่นยนต์
การวางแผน: กำหนดท่าทางเป้าหมาย โดยใช้อัลกอริธึมเช่น A* หรือ RRT เพื่อคำนวณเส้นทางที่ไม่มีการชนกันในแผนที่ที่รู้จัก
การควบคุม: ที่ระดับพื้นฐานสุด ตัวควบคุม PID จะปรับแรงบิดของมอเตอร์เป็นร้อยถึงพันครั้งต่อวินาทีเพื่อตามเส้นทางนั้น

ระดับเหล่านี้มักถูกเขียนโดยบุคลากรที่ต่างกันในห้องปฏิบัติการต่างๆ และถูกเชื่อมต่อกันอย่างละเอียดยิ่ง พฤติกรรม (เช่น “ถ้าถ้วยเป็นสีแดงให้หยิบขึ้น ไม่อย่างนั้นให้รอ”) ถูกเขียนรหัสเป็นสถานะเครื่องหรือต้นไม้พฤติกรรม: แผนผังขั้นตอนที่หุ่นยนต์ดำเนินการทีละขั้นตอน

หุ่นยนต์รูปคน

ข้อได้เปรียบของวิธีนี้ชัดเจน มันมีความคาดเดาได้และสอดคล้องกับมาตรฐานความปลอดภัย นี่คือเหตุผลที่รถยนต์ของคุณติดตั้งระบบเบรก ABS ที่มีประสิทธิภาพ

ข้อเสียก็ชัดเจนเช่นกัน หุ่นยนต์ดังกล่าวสามารถแสดงความสามารถอัจฉริยะได้เฉพาะในสถานการณ์ที่วิศวกรคาดการณ์ไว้เท่านั้น เมื่อนำไปใช้ในโรงงานใหม่ แสงสว่างใหม่ หรือสีถ้วยใหม่ มันจะล้มเหลว ความสามารถในการทั่วไปของมันแทบจะเป็นศูนย์

สอง: การเรียนรู้ของเครื่องเข้ามาอย่างเงียบๆ

ในทศวรรษที่ 2010 การเรียนรู้เชิงลึกเริ่มแก้ไขปัญหาในชั้นการรับรู้ โครงข่ายประสาทเทียมแบบคอนโวลูชัน (CNN) ที่สามารถเอาชนะมนุษย์ในการจำแนกภาพ ImageNet สามารถฝึกใหม่เพื่อตรวจจับจุดจับบนวัตถุ แยกแยะเฟอร์นิเจอร์ในห้อง หรือระบุท่าทางของมนุษย์ ทันใดนั้น ชั้น “การรับรู้” ที่อยู่ด้านบนสุดของสแต็กเทคโนโลยีก็ไม่จำเป็นต้องออกแบบด้วยมืออีกต่อไป คุณสามารถฝึกมันได้โดยตรง

ต่อมา กลไกการเรียนรู้ได้แพร่กระจายไปยังระดับการควบคุม นักวิจัยจากมหาวิทยาลัยเบิร์กลีย์ DeepMind และ OpenAI แสดงให้เห็นว่าการเรียนรู้แบบเสริมแรง (ซึ่งทำให้ตัวแทนหุ่นยนต์ลองทำหลายล้านครั้งในสภาพแวดล้อมจำลองและเสริมพฤติกรรมที่มีประสิทธิภาพ) สามารถสร้างรูปแบบการเดินที่ชำนาญอย่างน่าประหลาดใจ การจัดการวัตถุด้วยมือ (OpenAI แก้ปริศนาลูกบาศก์ด้วยมือเดียวในปี 2019 เป็นจุดเปลี่ยนสำคัญ) และกลยุทธ์การเคลื่อนไหวที่ปรับตัวเข้ากับพื้นผิวต่างๆ

ทิศทางการวิจัยอีกทางหนึ่งคือการเรียนรู้โดยการเลียนแบบ ซึ่งมักเรียกว่าการก็อปปี้พฤติกรรม: การบันทึกความพยายามหลายร้อยครั้งของมนุษย์ในการควบคุมหุ่นยนต์ให้ทำภารกิจหนึ่งๆ จากนั้นฝึกเครือข่ายประสาทเทียมเพื่อทำนายว่ามนุษย์จะดำเนินการอย่างไรตามสิ่งที่หุ่นยนต์สังเกตเห็น

หัวใจสำคัญทั้งหมดอยู่ที่: กลยุทธ์ที่เรียนรู้แต่ละขั้นตอนนั้นแคบเกินไป การฝึกเครือข่ายให้หยิบบล็อกสีแดง มันจะไม่รู้วิธีจัดการกับถ้วยสีเหลือง การฝึกให้มันเดินบนทุ่งหญ้า มันกลับล้มบนพื้นกระเบื้อง ความสามารถในการทั่วไปยังคงเป็นปัญหาที่ต้องแก้ไขอย่างเร่งด่วน

น่าสังเกตว่าในช่วงเวลานี้ได้เกิดโครงสร้างพื้นฐานขึ้นซึ่งยังคงเป็นรากฐานรองรับทุกสิ่งทุกอย่างจนถึงปัจจุบัน: ROS หรือ Robot Operating System (เปิดตัวครั้งแรกในเดือนพฤศจิกายน 2007) ROS ไม่ใช่ระบบปฏิบัติการในความหมายของ Windows หรือ Linux แต่เป็นกรอบงานกลางware หรือระบบหลอดไฟสำหรับหุ่นยนต์ทั่วไป ซึ่งอนุญาตให้ “โหนดกล้อง” “โหนดการนำทาง” “โหนดตัวควบคุมแขนกล” และโหนดอื่นๆ อีกหลายสิบโหนดสามารถเผยแพร่และติดตามข้อความผ่านช่องทางร่วมกันได้

เวอร์ชันปัจจุบันของ ROS2 ทำงานอยู่บนพื้นฐานของหุ่นยนต์ทางวิจัยและเชิงพาณิชย์ส่วนใหญ่ทั่วโลก ตั้งแต่ห้องปฏิบัติการของมหาวิทยาลัยสแตนฟอร์ดไปจนถึงบริษัทสตาร์ทอัพหุ่นยนต์รูปคนของจีน ไม่มีข้อยกเว้น เมื่อผู้คนพูดถึง “ระบบปฏิบัติการ” ของหุ่นยนต์ แทบจะหมายถึง ROS2 พร้อมด้วยแพ็กเกจการรับรู้ การวางแผน และการควบคุมต่างๆ ที่ทำงานอยู่บนมัน

หุ่นยนต์รูปคน

ROS2: มันไม่ใช่ระบบปฏิบัติการ แต่เป็นท่อทั่วไปที่ทำให้ซอฟต์แวร์หุ่นยนต์ที่แยกจากกันสามารถสื่อสารกันได้

สาม: การใช้งาน LLM ในโดเมนหุ่นยนต์

จากนั้น ChatGPT ก็เกิดขึ้น

มีสิ่งหนึ่งเกิดขึ้นอย่างกะทันหัน: LLM มันสามารถอ่านคำสั่งภาษาอังกฤษแบบง่ายๆ ทำการวิเคราะห์ขั้นตอนหลายขั้นตอน เขียนโค้ด และเรียกใช้ฟังก์ชัน นักวิจัยหุ่นยนต์แทบจะรู้ทันทีว่านี่คือส่วนที่ขาดหายไปซึ่งพวกเขาได้พยายามแก้ไขมานานหลายปี การทำให้หุ่นยนต์สามารถทำงานที่มีประโยชน์ในบ้านหรือสำนักงาน ส่วนที่ยากที่สุดมักไม่ใช่การควบคุมมอเตอร์ แต่เป็นการโต้ตอบระหว่างมนุษย์กับหุ่นยนต์: มนุษย์จะสั่งให้หุ่นยนต์ทำอะไร และหุ่นยนต์จะแยกเป้าหมายนั้นออกเป็นการกระทำแบบอะตอมที่มันรู้วิธีดำเนินการอยู่แล้วได้อย่างไร

ขั้นแรกที่นำ LLM ไปใช้กับหุ่นยนต์ คือการพิจารณาโมเดลภาษาเป็นคอมไพเลอร์ภาษาธรรมชาติที่วางอยู่เหนือ ROS รูปแบบมีดังนี้:

นำถ้วยกาแฟบนเคาน์เตอร์ครัวมาวางไว้บนโต๊ะของฉัน
LLM สร้างแผนจากรายการทักษะอะตอมที่หุ่นยนต์สามารถใช้งานได้: อาจเป็นลำดับการเรียกฟังก์ชัน เครื่องสถานะ หรือต้นไม้พฤติกรรมที่เขียนด้วย XML
โหนด ROS2 จะดำเนินการตามแผนทีละขั้นตอน หากขั้นตอนใดล้มเหลว จะรายงานข้อมูลการล้มเหลวให้กับ LLM เพื่อให้ LLM วางแผนใหม่

โครงการ SayCan ของกูเกิลในปี 2022 เป็นเวอร์ชันที่เรียบง่ายมากของแนวคิดนี้: LLM เสนอทักษะต่างๆ โมเดล “ความเป็นไปได้” ที่แยกจากกันประเมินความเป็นไปได้ในการประสบความสำเร็จของทักษะแต่ละอย่างในขณะนั้น หุ่นยนต์เลือกชุดทักษะที่มีคะแนนรวมสูงสุด โครงร่างแบบเปิดเช่น ROS-LLM, ROSGPT และ ROSA ที่นำโดยห้องปฏิบัติการวิจัยของฮัวเวย ได้ส่งเสริมรูปแบบนี้

นี่ถือเป็นก้าวกระโดดที่มีความหมายอย่างมาก ทันใดนั้น คุณสามารถบอกหุ่นยนต์ว่า “จัดโต๊ะให้สะอาด ใส่ของรีไซเคิลลงในถังขยะสีฟ้า” และมันจะพยายามดำเนินการที่สมเหตุสมผลบางอย่าง แต่โปรดสังเกตว่ายังมีปัญหาบางอย่างอยู่: โมเดลภาษา vẫnอยู่ในระดับการวางแผน คำสั่งการกระทำจริงยังถูกสร้างขึ้นโดยตัวควบคุมระดับล่างที่ได้รับการออกแบบหรือฝึกฝนมาอย่างรอบคอบ โมเดลภาษาเพียงเป็นตัวจัดการอัจฉริยะ ไม่ได้รับผิดชอบในการขับเคลื่อน

หุ่นยนต์รูปคน

สี่: โมเดลภาพ-ภาษา-การกระทำ (VLA) เมื่อสมองเริ่มขับเคลื่อนหุ่นยนต์

หุ่นยนต์รูปคน

หุ่นยนต์ Keenon XMAN-R1 กำลังรับยาจากชั้นวางในร้านยาอัตโนมัติของบริษัท Galbot ที่ปักกิ่ง แค่ 100,000 ดอลลาร์สหรัฐ

การก้าวกระโดดครั้งต่อไปจะยากยิ่งขึ้น แต่ก็สำคัญยิ่งกว่า นักวิจัยได้ตั้งคำถามที่ทะเยอทะยานกว่าเดิม: ถ้าแบบจำลองไม่เพียงแต่สามารถวางแผนได้ แต่ยังสามารถสร้างคำสั่งการกระทำโดยตรงล่ะ? ถ้านำภาพจากกล้องและคำสั่งภาษาโดยตรงป้อนเข้าไปในเครือข่ายประสาทเทียม แล้วสามารถได้รับการเคลื่อนไหวของข้อต่อในมิลลิวินาทีถัดไปได้ล่ะ?

นี่คือโมเดลภาพ-ภาษา-การกระทำ (VLA) มันตอนนี้เป็นรูปแบบหลักในสาขาหุ่นยนต์รูปคนและหุ่นยนต์สี่ขา

หุ่นยนต์ทางสายตาและภาษาตัวแรกที่เป็นที่รู้จักกว้างขวางคือ RT-2 ที่ Google DeepMind เปิดตัวในปี 2023 จุดเด่นของมันคือ: การใช้โมเดลภาษาและภาพขนาดใหญ่ (ซึ่งได้รับการฝึกฝนมาเพื่อสร้างคำอธิบายภาพและตอบคำถาม) และฝึกฝนต่อเนื่องด้วยข้อมูลการสาธิตหุ่นยนต์ โดยถือว่าการกระทำของหุ่นยนต์เป็นเครื่องหมายอีกประเภทหนึ่งที่ต้องทำนาย โมเดลประสาทเทียมเดียวกันนี้เดิมทีสามารถส่งออก “แมวกำลังนั่งบนพรม” ตอนนี้สามารถส่งออกชุดของเครื่องหมายที่เข้ารหัส “เคลื่อนขาขวาไปข้างหน้า 3 เซนติเมตร ปิดกรงเล็บ และยกขึ้น 5 เซนติเมตร” การให้เหตุผลและการกระทำเกิดขึ้นภายในโมเดลเดียวกัน

ต่อมาในช่วงกลางปี 2024 ทีมที่นำโดยมหาวิทยาลัยสแตนฟอร์ดได้เปิดตัว OpenVLA ซึ่งเป็นโมเดล VLA แบบโอเพนซอร์สที่มีพารามิเตอร์ 7 พันล้านตัว ซึ่งได้รับการฝึกฝนจากชุดข้อมูล Open X-Embodiment ชุดข้อมูลนี้รวบรวมชิ้นส่วนการฝึกฝนมากกว่าหนึ่งล้านชิ้นจาก 21 ห้องปฏิบัติการวิจัยที่แตกต่างกัน ครอบคลุมหุ่นยนต์ 22 รุ่นที่มีร่างกายต่างกัน นี่เป็นครั้งแรกที่ผู้คนนอกเหนือจากกูเกิลสามารถดาวน์โหลดโมเดลหุ่นยนต์ทั่วไปและเริ่มปรับแต่งได้ มันเปลี่ยนแปลงทั้งอุตสาหกรรมภายในข้ามคืน

ในปัจจุบัน VLA ชั้นนำซึ่งมีจำนวนไม่มากนัก แต่กำลังเติบโตอย่างรวดเร็ว:

π0 และ π0.5 จาก Physical Intelligence: ความสามารถในการปรับตัวตามงานได้ยอดเยี่ยม
NVIDIA Isaac GR00T N1.7: น้ำหนักเปิด, ใบอนุญาตเชิงพาณิชย์, ออกแบบมาเฉพาะสำหรับหุ่นยนต์รูปคน ซึ่งเป็นโมเดลที่บริษัทฮาร์ดแวร์ส่วนใหญ่ในจีนกำลังใช้ข้อมูลของตนเองในการฝึกต่อ
Helix และ Helix-02 ที่อัปเดตของ Figure AI: เทคโนโลยีเฉพาะตัว แต่มีความสำคัญเชิงโครงสร้าง
AgiBot's Genie Envisioner: แพลตฟอร์มที่ใช้โมเดลโลกของจีน
SmolVLA, NORA, ACoT-VLA, CogACT: ชุมชนวิชาการกำลังเห็นการเกิดขึ้นของ VLA จำนวนมากที่สำรวจแนวทางการออกแบบที่แตกต่างกัน

วิธีการทำงานของ VLA (ไม่เกี่ยวข้องกับสูตรคณิตศาสตร์)

สามารถจินตนาการ VLA ว่าเป็นการรวมสัญญาณขาเข้าสามทางเป็นสัญญาณขาออกหนึ่งทาง

ข้อมูลสตรีมแรกคือข้อมูลภาพ กล้อง RGB (บางครั้งเป็นเซนเซอร์ความลึกหรือเลเซอร์เรดาร์) บางครั้งเป็นเซนเซอร์สัมผัสที่ปลายนิ้ว ซึ่งถูกประมวลผลโดยตัวเข้ารหัสภาพ (มักเป็นโมเดล Transformer เช่น DINOv2 หรือ SigLIP) ที่บีบอัดภาพแต่ละภาพให้เป็น “โทเค็นภาพ” หลายร้อยตัว เพื่อสรุปสิ่งที่หุ่นยนต์เห็น

สตรีมข้อมูลที่สองคือภาษา คำสั่งของคุณ (“ส่งไขควงให้ฉัน”) จะถูกแปลงเป็นโทเค็นเหมือนใน ChatGPT

สองสตรีมข้อมูลนี้ถูกเชื่อมต่อกันและป้อนเข้าสู่ “โครงหลัก” ของ Transformer (มักเป็นโมเดลภาษาเปิดขนาดเล็กเช่น Qwen3 หรือ Llama) โครงหลักนี้รับผิดชอบการให้เหตุผล โดยรวมข้อมูลที่มันเห็นเข้ากับสิ่งที่ถูกถาม

สตรีมข้อมูลที่สาม: การกระทำ ไหลออกจากอีกด้านหนึ่ง นี่คือจุดที่การออกแบบสถาปัตยกรรมต่างๆ แตกต่างกัน:

โทเค็นการกระทำแบบไม่ต่อเนื่อง: โมเดลสร้างโทเค็นที่สามารถถอดรหัสเป็นมุมข้อต่อหรือตำแหน่งของปลายแขนได้ เช่นเดียวกับที่ ChatGPT สร้างคำ วิธีนี้ง่าย แต่เมื่อทำงานที่ความถี่สูงจะเกิดการกระตุก
หัวการกระทำแบบกระจายหรือการจับคู่การไหล (flow-matching): เครือข่ายขนาดเล็กอิสระรับเอาผลลัพธ์จากส่วนหลัก และลดสัญญาณรบกวนเพื่อสร้างเส้นทางตำแหน่งข้อต่อที่ราบรื่น คล้ายกับแบบจำลองการกระจายภาพ แต่สร้างการเคลื่อนไหวแทน นี่คือวิธีการของ π0 ซึ่งให้การกระทำที่ราบรื่นและเป็นธรรมชาติมากขึ้น
Action chunking: Instead of predicting the next single instruction, predict the entire set of instructions for the next half-second to smooth out jitter.

หุ่นยนต์รูปคน

ในโมเดล VLA: ป้อนข้อมูลสองสตรีม ออกคำสั่งการเคลื่อนไหว การให้เหตุผลและการกระทำถูกรวมเข้าไว้ในเครือข่ายเดียวกัน

นี่คือการเปลี่ยนแปลงโครงสร้างที่สำคัญยิ่ง: การให้เหตุผลและการกระทำไม่ได้แยกจากกันอีกต่อไป การสอนเครือข่ายประสาทให้รู้จักถ้วย ยังหมายถึงการสอนให้มันจับถ้วยได้ด้วย การเชื่อมโยงนี้เองที่ทำให้ VLA สามารถทั่วไปได้ ในขณะที่รุ่นก่อนหน้าไม่สามารถทำได้

ห้า: กลยุทธ์สมองคู่ วิธีที่ LLM และ VLA ทำงานร่วมกัน

มีรายละเอียดหนึ่งที่มักไม่ได้อธิบายอย่างชัดเจนในทางการตลาด หุ่นยนต์รูปคนที่มีประสิทธิภาพดีที่สุดในปัจจุบันไม่ได้ทำงานด้วยระบบ VLA แบบเดียว แต่ใช้โมเดลสองตัวที่มีความเร็วต่างกันซึ่งสื่อสารกันเอง บางครั้งเรียกว่าสถาปัตยกรรมระบบคู่หรือระบบ 1/ระบบ 2 โดยอ้างอิงจากกรอบแนวคิดทางจิตวิทยาของแดเนียล คาห์นีแมน ซึ่งระบุว่ามนุษย์มีสมองที่คิดอย่างรวดเร็วและโดยอัตโนมัติ พร้อมกับสมองที่คิดอย่างช้าและพิจารณาอย่างลึกซึ้ง

Helix ของ Figure AI ทำให้การออกแบบนี้กลายเป็นคลาสสิก ตอนนี้มัน (และรุ่นที่คล้ายกัน) ถูกเลียนแบบแทบทุกที่ โดยเฉพาะอย่างยิ่ง NVIDIA's GR00T N1.7 ได้นำการออกแบบนี้ไปใช้ และหุ่นยนต์รูปคนส่วนใหญ่ของจีนก็ใช้การออกแบบนี้เช่นกัน โครงสร้างของมันมีดังนี้:

ระบบ 2 (S2): สมองที่คิดช้า โมเดลภาพ-ภาษาที่มีพารามิเตอร์ 7 พันล้านตัว ทำงานที่ความถี่ประมาณ 7–9 Hz (คือ 7 ถึง 9 ครั้งต่อวินาที) หน้าที่ของมันคือสังเกตฉาก วิเคราะห์คำสั่ง ทำการอนุมานหลายขั้นตอน (เช่น “ชามอยู่ด้านหลังกล่องซีเรียล; ฉันต้องย้ายกล่องก่อน”) และส่งสัญญาณเจตนาในระดับสูง—มักเป็นชุดเวกเตอร์ภายในที่กระชับ แทนที่จะเป็นข้อความโดยตรง
ระบบ 1 (S1): สมองตอบสนองเร็ว โมเดลกลยุทธ์การเคลื่อนไหวทางภาพที่มีพารามิเตอร์น้อยกว่ามาก (ประมาณ 80 ล้านพารามิเตอร์) ทำงานที่ความถี่ 200 Hz มันรับเวกเตอร์เจตนาจาก S2 บวกกับข้อมูลเซนเซอร์ล่าสุด และส่งออกคำสั่งข้อต่อแบบต่อเนื่อง มันไม่มีการ “คิด” ใดๆ ในความหมายจริงๆ แค่ตอบสนองเท่านั้น

เมื่อเร็วๆ นี้ บริษัท Figure ได้เพิ่มระบบ 0 (System 0) เข้าไปใน Helix-02 ซึ่งตั้งอยู่ใต้ระบบสมองคู่ เป็นชั้นสะท้อน ไม่ใช่ชั้นการรับรู้ที่สาม นี่คือเครือข่ายที่มีพารามิเตอร์ 10 ล้านตัว ทำงานที่ความถี่ 1 kHz รับผิดชอบในการจัดการสมดุลพื้นฐานและการประสานงานของร่างกายทั้งหมด โดยแทนที่โค้ด C++ สำหรับการควบคุมการเคลื่อนไหวที่เขียนด้วยมือกว่า 100,000 บรรทัด คุณสามารถนึกภาพ S0 ว่าเป็นไขสันหลังที่เรียนรู้มา: มันไม่ได้ให้เหตุผลหรือวางแผน แต่ทำหน้าที่รักษาท่าทางร่างกายให้ตั้งตรงและประสานงาน ส่วนการคิดจะถูกดำเนินการโดยระบบสมองคู่ด้านบน

หุ่นยนต์รูปคน

สถาปัตยกรรมสมองคู่ของหุ่นยนต์รูปคนสมัยใหม่: ระบบ 2 คิดช้า ระบบ 1 ตอบสนองเร็ว—ด้านล่างยังมีชั้นรีเฟล็กซ์ระบบ 0 สำหรับรักษาสมดุล การสัมผัสทางสัมผัส และการประสานงานทั้งร่างกาย

การแบ่งประเภทนี้เกิดจากข้อจำกัดทางฟิสิกส์ หากส่งคำสั่งการเคลื่อนไหวเพียงครั้งเดียวทุก 200 มิลลิวินาที (ซึ่งเป็นความเร็วของ VLA ขนาดใหญ่) การเคลื่อนไหวของหุ่นยนต์จะช้าเหมือนการเคลื่อนที่ใต้น้ำ การอัปเดตคำสั่งการเคลื่อนไหวต้องเร็วกว่าการสั่นสะเทือนตามธรรมชาติของข้อต่อที่มันควบคุม ซึ่งหมายความว่าต้องมีการอัปเดตหลายร้อยถึงหลายพันครั้งต่อวินาที ไม่มีโมเดล Transformer ขนาด 7 พันล้านพารามิเตอร์ใดๆ ที่สามารถทำงานได้เร็วขนาดนี้บนหุ่นยนต์ที่ใช้แบตเตอรี่

ดังนั้น งานทางปัญญาจึงถูกแบ่งออก: แบบจำลองขนาดใหญ่และช้ารับผิดชอบการคิด; แบบจำลองขนาดเล็กและเร็วรับผิดชอบการกระทำ พวกมันไม่ได้สื่อสารด้วยภาษาอังกฤษ แต่ใช้เวกเตอร์เชิงแฝงที่เรียนรู้มาเพื่อสื่อสาร: แบบจำลองที่ช้าส่งเป้าหมายที่เป็นนามธรรม ในขณะที่แบบจำลองที่เร็วรู้วิธีตีความมัน

หก: ปัญหาการวางตำแหน่งของคลาวด์ ขอบการคำนวณ และ “สมอง”

การคำนวณเหล่านี้ทั้งหมดเกิดขึ้นที่ไหน?

ในปัจจุบัน ทีมหุ่นยนต์แทบจะมีความเห็นพ้องต้องกันอย่างเข้มแข็งและเกือบเป็นอุดมการณ์ว่า วงจรการควบคุมที่สำคัญด้านความปลอดภัยต้องทำงานในท้องถิ่น เหตุผลมีสองประการ:

ความล่าช้า ระยะเวลาการส่งข้อมูลแบบไป-กลับของ WiFi หรือเครือข่ายเซลลูลาร์ แม้แต่ในกรณีที่ดีที่สุดก็อยู่ที่ 30-80 มิลลิวินาที แต่คำสั่งการกระทำต้องอัปเดตทุก 1-5 มิลลิวินาที วงจรเครือข่ายแบบนี้ไม่สามารถทำงานได้ตามปกติ

ความน่าเชื่อถือ หุ่นยนต์ทำงานในโรงงาน คลังสินค้า ครัว โรงพยาบาล และสถานที่อื่นๆ เครือข่ายอาจหลุดเชื่อมต่อได้ตลอดเวลา หากหุ่นยนต์หยุดทำงานทันทีเมื่อ Wi-Fi หลุด การใช้งานจะกลายเป็นภัยคุกคามด้านความปลอดภัย

ดังนั้น การแบ่งแยกในยุคปัจจุบันโดยทั่วไปคือ:

ติดตั้งบนอุปกรณ์ (ในท้องถิ่น) ที่ทำงานบนโมดูลเช่น NVIDIA Jetson Thor หรือ AGX Thor (ประมาณ 2,000 TFLOPS, หน่วยความจำ 128 GB, การใช้พลังงาน 40–130 W):

ฟังก์ชันทั้งหมดของ S0/S1: ความสมดุล การเคลื่อนไหว การควบคุมการเคลื่อนไหวอย่างละเอียด
VLA 本身 (ระบบ 2) เพื่อให้เหมาะสมกับข้อจำกัดของฮาร์ดแวร์ จึงถูกควอนไทซ์เป็นรูปแบบ FP8 หรือ FP4 มากขึ้นเรื่อยๆ ขณะนี้โมเดลที่มีพารามิเตอร์ระหว่าง 2 พันล้านถึง 7 พันล้านสามารถทำงานได้บนอุปกรณ์
การรับรู้ การรวมข้อมูลจากเซนเซอร์ และโปรแกรมตรวจสอบความปลอดภัยที่สามารถครอบคลุมการดำเนินการอื่นๆ ทั้งหมด

คลาวด์หรือเซิร์ฟเวอร์ระยะไกล (ถ้ามี):

อินเทอร์เฟซแบบสนทนา (“เฮ้ โรบอต ฉันควรทำอะไรกินสำหรับมื้อเย็น?”): อินเทอร์เฟซเหล่านี้สามารถรับความล่าช้าได้
การเรียนรู้แบบกลุ่ม: หุ่นยนต์นับพันตัวจะส่งข้อมูลการดำเนินการจากระยะไกลกลับไปยังเซิร์ฟเวอร์ เพื่อรวมเข้ากับรุ่นถัดไป
ต้องมีการวางแผนระยะยาวในระดับใหญ่ ซึ่งอาจใช้แบบจำลองขนาดขั้นสูง
แดชบอร์ดและติดตามผลของผู้ดำเนินการ

นอกจากนี้ ยังมีชั้นกลางที่เติบโตขึ้นเรื่อยๆ: เซิร์ฟเวอร์ขอบในท้องถิ่นที่ตั้งอยู่ในโรงงานหรือคลังสินค้า ซึ่งสื่อสารกับกลุ่มหุ่นยนต์ผ่านเครือข่ายท้องถิ่น โดยมีความล่าช้าเพียงไม่กี่มิลลิวินาที โมเดล LLM ขนาดใหญ่กว่าอาจถูกปรับใช้ในระดับนี้ เพื่อดำเนินการจัดตารางงานขั้นสูงที่หุ่นยนต์แต่ละตัวไม่จำเป็นต้องจัดการด้วยตนเอง

คลื่นหุ่นยนต์รูปคนของจีนถูกสร้างขึ้นบนสมมติฐานนี้: Unitree, AgiBot, Xiaopeng IRON, Fourier, EngineAI หุ่นยนต์ของพวกเขามีความสามารถในการประมวลผลบนบอร์ด (มักใช้ Jetson หรือบางครั้งใช้ชิปภายในประเทศเช่น Huawei Ascend) ในขณะที่คลาวด์ใช้สำหรับการเรียนรู้แบบกลุ่มและอินเทอร์เฟซการสนทนา ไม่ใช่สำหรับวงจรการควบคุม

หุ่นยนต์รูปคน

ตำแหน่งที่สมองหุ่นยนต์ทำงานจริง: วงจรที่สำคัญต่อความปลอดภัยทำงานบนอุปกรณ์ท้องถิ่น ส่วนคลาวด์ใช้จัดการสิ่งที่สามารถรอได้

เจ็ด: เหตุใดโมเดลโอเพนซอร์สจึงค่อยๆ เป็นจุดสนใจ

หากคุณดูเพียงการสาธิต คุณอาจคิดว่าอุตสาหกรรมนี้ถูกควบคุมโดยบริษัทอเมริกันไม่กี่แห่งที่มีทุนหนาแน่น แต่ความเป็นจริงซับซ้อนกว่านั้นมาก การพัฒนาของฟิสิกส์ AI ขึ้นอยู่กับโมเดลน้ำหนักแบบเปิดแหล่งที่มาที่ทุกคนสามารถดาวน์โหลดและปรับแต่งได้

แบบจำลองที่ระบุไว้ด้านล่างมีไม่มาก แต่มีความหมายสำคัญ:

OpenVLA (Stanford University): โมเดลหุ่นยนต์ทั่วไปขนาด 7B แบบเปิดแหล่งรหัสฉบับแรก
NVIDIA Isaac GR00T (N1, N1.5, N1.7): น้ำหนักแบบเปิดแหล่งที่มาจะเปิดตัวเร็วๆ นี้ และใบอนุญาตเชิงพาณิชย์ก็จะตามมา โมเดลนี้ได้รับการฝึกอบรมจากวิดีโอศูนย์กลางของมนุษย์หลายหมื่นชั่วโมง GR00T N1.7 จะเปิดตัวในเดือนมีนาคม 2026 โดยผู้ใช้ทุกคนที่มีหุ่นยนต์รูปคนสามารถใช้สถาปัตยกรรมระบบคู่ได้ฟรี
Physical Intelligence 的 π0：发布供研究使用的权重。
NVIDIA Cosmos: โมเดลพื้นฐานสำหรับโลกเปิด
AgiBot World: ชุดข้อมูลแบบเปิดขนาดใหญ่จากบริษัทสตาร์ทอัพในเซี่ยงไฮ้ พร้อมการสาธิตการควบคุมหุ่นยนต์รูปคนจากระยะไกล
LeRobot ของ Hugging Face: ไลบรารีแบบเปิดที่ได้กลายเป็นจุดรวมของแพลตฟอร์มทั้งหมดข้างต้น
mimic robotics's mimic-video: โมเดลวิดีโอ-การเคลื่อนไหวแบบเปิดแหล่งที่มา ซึ่งมีประสิทธิภาพในการเรียนรู้จากตัวอย่างสูงกว่า VLA แบบดั้งเดิมถึง 10 เท่า

เหตุผลที่สำคัญมีสองประการ ประการแรก บริษัทสตาร์ทอัพหุ่นยนต์ไม่จำเป็นต้องใช้เงินหลายสิบล้านดอลลาร์สหรัฐในการฝึกโมเดลพื้นฐานล่วงหน้า: พวกเขาสามารถใช้ GR00T หรือ π0 แล้วปรับแต่งเพิ่มเติมด้วยข้อมูลหุ่นยนต์ของตนเอง ยูชู จูจีไดนามิกส์ บูสเตอร์ กัลบอท และบริษัทจีนขนาดเล็กอีกหลายสิบแห่งกำลังทำเช่นนี้อยู่ นี่คือเหตุผลที่บริษัทที่มีพนักงานเพียงไม่กี่ร้อยคนสามารถผลิตหุ่นยนต์รูปคนที่สามารถเดิน พูด และพับเสื้อผ้าได้: พวกเขาอยู่บนไหล่ของเทคโนโลยีโอเพ่นซอร์ส

นอกจากนี้ แบบจำลองแบบเปิดแหล่งที่มาเป็นทางออกที่เป็นไปได้เพียงทางเดียวในการแก้ไขปัญหาด้านความปลอดภัย หากแบบจำลองที่ปิดแหล่งที่มาอย่างสมบูรณ์ทำงานอยู่ภายในหุ่นยนต์ในโรงงาน และบุคคลภายนอกไม่มีความสามารถในการเข้าใจตรรกะการให้เหตุผลของมัน นี่จะเป็นหายนะด้านการกำกับดูแลอย่างแน่นอน แบบจำลองแบบเปิดช่วยให้ผู้ตรวจสอบ นักวิจัย และผู้ปฏิบัติงานสามารถตรวจสอบได้อย่างแท้จริงว่าหุ่นยนต์ถูกฝึกให้ทำอะไร

八：ยังมีปัญหาใดที่ยังไม่ได้รับการแก้ไข

หากคุณดูวิดีโอการสาธิตหุ่นยนต์มากพอ คุณก็คงเคยดูวิดีโอหุ่นยนต์ล้มเหลวมากมายเช่นกัน หุ่นยนต์รุ่นปัจจุบันที่ใช้ LLM+VLA นั้นน่าประทับใจจริง แต่ก็มีข้อจำกัดที่ชัดเจน ต่อไปนี้คือปัญหาที่มีอยู่:

กู้คืนงานระหว่างทาง ความสามารถของ VLA ในการจัดการกับการเปลี่ยนแปลงที่ไม่คาดคิดนั้นแข็งแกร่งกว่าเทคโนโลยีก่อนหน้าใดๆ แต่เมื่อเกิดปัญหาอย่างรุนแรงขึ้น (เช่น การจับผิดพลาด วัตถุกลิ้ง หรือมีคนเข้ามาในพื้นที่ทำงาน) การกลับสู่สภาพปกติยังคงเป็นจุดอ่อน หุ่นยนต์จะทำซ้ำการกระทำที่ล้มเหลวอย่างไร้สติ
ประสิทธิภาพตัวอย่าง การฝึก VLA ตั้งแต่เริ่มต้นต้องการข้อมูลการควบคุมระยะไกลหลายพันชั่วโมง ในขณะที่มนุษย์สามารถเรียนรู้การใช้เครื่องมือใหม่ได้ภายในไม่กี่นาที ช่องว่างด้านประสิทธิภาพนี้ใหญ่มาก
泛化至不同实体。在斯坦福实验室中使用 Franka 机械臂训练的模型，无法完美迁移到深圳仓库中的宇树人形机器人上，因为两者的物理形态不同。
งานระยะยาว งานใดก็ตามที่ต้องการพฤติกรรมต่อเนื่องเกิน 30-60 วินาที และมีเป้าหมายย่อยหลายขั้นตอน มักจะหลุดจากเป้าหมาย งานเช่น “ทำอาหารเช้าให้ฉัน” จึงยังคงอยู่ไกลเกินเอื้อม
ความรู้พื้นฐานทางฟิสิกส์ VLA ได้รับการฝึกด้วยการเลียนแบบ ไม่ใช่การเข้าใจ มันจึงไม่ได้เข้าใจหลักการที่ว่าเมื่อพลิกแก้วน้ำ น้ำจะไหลออกมา มันแค่เคยเห็นตัวอย่างบางอย่าง และคาดการณ์สิ่งที่จะเกิดขึ้นถัดไปโดยการจับคู่รูปแบบ
ความสามารถในการให้เหตุผลเชิงพื้นที่ แม้ว่าจะเป็นแบบหลายรูปแบบ แต่กลับอ่อนแออย่างผิดปกติในงานเช่น “หลีกเลี่ยงอุปสรรคแทนการผ่านมัน” หรือ “วางสิ่งของเหล่านี้ซ้อนกันโดยไม่ให้ล้ม”

จุดอ่อนชุดสุดท้ายนี้ ได้ผลักดันให้ภาคสนามเริ่มลงทุนในโมเดลที่ต่างออกไปอย่างสิ้นเชิง

เก้า: โมเดลโลก

ลองจินตนาการดูว่า: ถ้าไม่ฝึกหุ่นยนต์ให้ทำนายการกระทำ แต่ฝึกให้มันทำนายผลลัพธ์ของการกระทำ จะเกิดอะไรขึ้น?

World Model เป็นเครือข่ายประสาทเทียมที่คาดการณ์รูปแบบถัดไปของโลกโดยอิงจากสถานะปัจจุบันของโลก (มักเป็นวิดีโอหรือชุดภาพเฟรม) และการกระทำที่กำหนดไว้ล่วงหน้า กล่าวอย่างง่ายๆ คุณสามารถจินตนาการมันเหมือนเครื่องทำนายวิดีโอที่เรียนรู้พร้อมพวงมาลัย คุณให้ภาพจากกล้องในวินาทีสุดท้ายและบอกว่า “หุ่นยนต์จะเคลื่อนแขนไปข้างหน้า 10 เซนติเมตร” มันจะสร้างวิดีโอที่สมจริงเพื่อคาดการณ์ภาพในวินาทีถัดไป

ทำไมสิ่งนี้จึงสำคัญ?

เนื่องจากเมื่อมีโมเดลโลกแล้ว หุ่นยนต์สามารถคิดก่อนกระทำได้ มันสามารถวางแผนล่วงหน้าถึงสามถึงสี่ทางเลือกการกระทำ คาดการณ์ผลลัพธ์ของแต่ละทางเลือก ให้คะแนน และเลือกแนวทางที่ดีที่สุด ทั้งหมดนี้ทำเสร็จก่อนที่จะมีการเคลื่อนไหวของมอเตอร์ นี่คือวิธีการทำงานของโปรแกรมหมากรุก: มันไม่ได้จดจำการเดินหมาก แต่จำลองอนาคต ซึ่งก่อนหน้านี้ไม่เคยมีความสามารถเช่นนี้ในด้านหุ่นยนต์ทางกายภาพ เพราะไม่เคยมีโมเดลที่แม่นยำพอในการจำลองโลกแห่งความเป็นจริงที่ซับซ้อน

หุ่นยนต์รูปคน

โมเดลโลกช่วยให้หุ่นยนต์สามารถจำลองสถานการณ์อนาคตที่เป็นไปได้หลายแบบ ให้คะแนนแต่ละสถานการณ์ และเลือกแนวทางที่ดีที่สุดก่อนที่จะเริ่มทำงานของมอเตอร์ใดๆ

รูปแบบของโลกในปี 2026 จะเป็นอย่างไร?

ปัจจุบันมีโมเดลโลกที่ทันสมัยที่สุดหลายประเภท แต่กำลังพัฒนาอย่างรวดเร็ว ต่อไปนี้คือโมเดลบางตัว:

NVIDIA Cosmos: ชุดแบบจำลองพื้นฐานสำหรับโลกเปิด รวมถึง Cosmos Predict 2.5 (แบบจำลองการสร้าง), Cosmos Transfer 2.5 (แบบจำลองการจำลองที่ควบคุมได้), Cosmos Reason 2 (ตัวประมวลผลการให้เหตุผลทางภาพและภาษาสำหรับหุ่นยนต์) และ Cosmos Policy ล่าสุด Cosmos Policy ขั้นสูงยิ่งขึ้นโดยการฝึกต่อแบบจำลองโลกเพื่อส่งออกการกระทำโดยตรงสำหรับการควบคุม Cosmos ได้รับการฝึกด้วยข้อมูลวิดีโอหลายหมื่นชั่วโมง GPU (Cosmos Predict 2.5 เป็นแบบจำลองโลกในชุดนี้)
DeepMind Genie 3: โมเดลโลกแบบโต้ตอบที่สามารถสร้างสภาพแวดล้อมที่สามารถนำทางได้เต็มรูปแบบจากคำแนะนำข้อความ โดยมีอัตราเฟรม 24 เฟรมต่อวินาที และสามารถทำงานอย่างต่อเนื่องและมั่นคงเป็นเวลาหลายนาที ออกแบบมาเริ่มต้นสำหรับสภาพแวดล้อมเกม
Meta V-JEPA 2: ใช้วิดีโอออนไลน์มากกว่าหนึ่งล้านชั่วโมงในการฝึกล่วงหน้า แล้วจึงฝึกการควบคุมการกระทำด้วยวิดีโอหุ่นยนต์เพียง 62 ชั่วโมงเท่านั้น สามารถบรรลุอัตราความสำเร็จในการหยิบและวางแบบศูนย์ตัวอย่างได้ 80% บนแขนหุ่นยนต์จริงในห้องแล็บต่างๆ โดยไม่ต้องฝึกเฉพาะงานใดๆ “JEPA” วิธีการนี้มีโครงสร้างต่างจากวิธีอื่นๆ อย่างสิ้นเชิง
DeepMind Dreamer 4: เรียนรู้การเก็บเพชรใน Minecraft (ภารกิจ 20,000 ขั้นตอน) โดยใช้ข้อมูลแบบออฟไลน์เพียงอย่างเดียว โดยไม่ต้องมีการโต้ตอบกับสภาพแวดล้อมใดๆ ซึ่งพิสูจน์ว่าการเรียนรู้แบบเสริมแรงที่แท้จริงในโลกเสมือนเป็นไปได้
AgiBot’s Genie Envisioner: แพลตฟอร์มโมเดลโลกแบบรวมจากจีน ที่ได้รับการฝึกด้วยวิดีโอการดำเนินการหุ่นยนต์รูปแบบมนุษย์จริงมากกว่า 3,000 ชั่วโมง สามารถสร้างเส้นทางการขยายที่คาดการณ์ได้ รวมถึงเส้นทางการกระทำที่สามารถดำเนินการได้ AgiBot ใช้ NVIDIA Cosmos Predict 2 เป็นโครงข่ายหลัก และใช้ข้อมูลของตนเองในการฝึกต่อหลัง นี่คือรูปแบบ “สแต็กเทคโนโลยีแบบเปิดแหล่งที่มา + ข้อมูลของตนเอง” ที่อธิบายไว้ก่อนหน้านี้
Toyota Research Institute's world model based on Cosmos: for remote operation data augmentation and navigation.

หุ่นยนต์รูปคน

หกโมเดลโลกที่สำคัญที่สุดในปี 2025-2026 ซึ่งแต่ละโมเดลเสนอแนวคิดที่ต่างกันเกี่ยวกับวิธีที่เครื่องจักรควรเรียนรู้ฟิสิกส์

十：ทางเลือกของสถาปัตยกรรม เนื่องจากสาขานี้ยังไม่มีข้อสรุป

การสร้างแบบจำลองโลกไม่มีมาตรฐานเดียว การแข่งขันด้านสถาปัตยกรรมเป็นหนึ่งในการอภิปรายที่น่าสนใจที่สุดในวงการ AI ณ ขณะนี้ และส่งผลกระทบโดยตรงต่อสิ่งที่หุ่นยนต์จะสามารถทำได้ในอนาคต สามกลุ่มต่อไปนี้น่าจับตามอง:

การแพร่กระจายวิดีโอแบบพิกเซลต่อพิกเซล (โรงเรียน Cosmos/Sora): ใช้แบบจำลองการแพร่กระจายเพื่อทำนายพิกเซลจริงของเฟรมถัดไป ข้อดีคือสามารถใช้เป็นตัวสร้างข้อมูลสังเคราะห์และเรนเดอร์การสาธิตหุ่นยนต์ใหม่ที่ไม่เคยเกิดขึ้นมาก่อน ข้อเสียคือมีต้นทุนสูง บางครั้งขัดกับกฎฟิสิกส์ และการคาดการณ์พิกเซลที่จะไม่เคยเห็นนั้นเป็นการสูญเปล่า

โครงสร้างการพยากรณ์แบบผสานร่วม (JEPA) ของกลุ่มเลคูน: ไม่พยากรณ์พิกเซล แต่พยากรณ์ตัวแทนนามธรรมของเฟรมถัดไป ละทิ้งรายละเอียดพื้นผิว และเก็บรักษาสาระเชิงความหมายของสิ่งต่างๆ ในฉาก ข้อดีคือมีประสิทธิภาพสูงและมุ่งเน้นที่ปัจจัยที่สำคัญต่อการกระทำ ข้อเสียคือการใช้งานค่อนข้างซับซ้อน โมเดล V-JEPA, V-JEPA 2 และ JEPA-VLA แบบผสมใหม่กำลังสำรวจพื้นที่นี้

โมเดลโลกแบบศักยภาพการกระทำ (แนว Genie/Dreamer): เรียนรู้วิธีบีบอัดวิดีโอทั้งชุดให้เป็นภาษา “การกระทำ” แบบศักยภาพ ซึ่งสามารถจับโครงสร้างพฤติกรรม แล้วฝึกโมเดลโลกให้สามารถทำนายสถานะศักยภาพถัดไปจากการกระทำศักยภาพถัดไป ข้อดีคือสามารถใช้วิดีโอจากอินเทอร์เน็ตที่ไม่มีการกระทำในการฝึก แล้วจึงเพิ่มข้อมูลหุ่นยนต์จริงเพียงเล็กน้อย ข้อเสียคือการกระทำศักยภาพไม่สามารถเข้าใจได้โดยมนุษย์ ทำให้การวิเคราะห์ความปลอดภัยซับซ้อนขึ้น

หุ่นยนต์รูปคน

พิกเซลดิฟฟูชัน, JEPA และการกระทำเชิงศักยภาพ: เป้าหมายเดียวกัน แต่วิธีการสร้างโมเดลโลกต่างกันอย่างสิ้นเชิง

十一：โลกโมเดลที่ใช้งานจริงกับหุ่นยนต์

หากเร่งเวลาไปหลายปี สถาปัตยกรรมของหุ่นยนต์รูปคนขั้นสูงอาจดูเหมือนเช่นนี้:

VLA ถูกติดตั้งด้วยโมเดลโลก เมื่อหุ่นยนต์พบสถานการณ์ใหม่ มันจะดำเนินการในลักษณะที่คล้ายกับข้างล่างนี้:

VLA ได้เสนอตัวเลือกการดำเนินการต่อไปบางประการ (ยังคงเป็นกลยุทธ์)
โมเดลโลกจะรับการกระทำแต่ละตัวเลือกและจำลองวิดีโอสมมติเป็นเวลา 1-3 วินาที
ผู้ประเมินคุณค่าจะให้คะแนนตามผลลัพธ์ที่จินตนาการไว้: ถ้วยถูกยกขึ้นหรือไม่? มีอะไรหล่นลงมาหรือไม่? มีคนถูกชนหรือไม่?
หุ่นยนต์จะเลือกการกระทำที่ได้คะแนนสูงสุด และดำเนินการเฉพาะส่วนแรกเท่านั้น
Real sensor data feedback; cyclic repetition.

นี่คือการควบคุมแบบทำนายตามแบบจำลอง เทคโนโลยีนี้ถูกใช้มาหลายปีเพื่อเสถียรภาพของจรวดและโดรนสี่ใบพัด แต่มันแทนที่สมการฟิสิกส์ที่ถูกอนุมานด้วยแบบจำลองโลกที่เรียนรู้มา ความสามารถในการขยายตัวอยู่ที่ว่า แบบจำลองโลกถูกฝึกล่วงหน้าจากวิดีโอหลายล้านชั่วโมง ไม่ใช่เพราะมีคนเขียนสมการนาวิเยร์-สโตกส์ (Navier-Stokes equations) สำหรับสภาพแวดล้อมห้องครัว

ประโยชน์ของมันมีหลายระดับ:

สถานการณ์การกู้คืนดีขึ้น หากการจับเกิดข้อผิดพลาด โมเดลโลกสามารถพิจารณาเส้นทางการแก้ไขหลายทาง และเลือกเส้นทางที่มีศักยภาพมากที่สุด
ความสามารถทั่วไปได้รับการปรับปรุง โมเดลโลกที่ฝึกจากวิดีโอออนไลน์ได้สัมผัสกับปรากฏการณ์ทางฟิสิกส์มากกว่าชุดข้อมูลการควบคุมหุ่นยนต์จากระยะไกลหลายระดับ
การวางแผนระยะยาวกลายเป็นสิ่งที่ควบคุมได้ วางแผนในจินตนาการ ไม่ใช่ในความเป็นจริง
ช่องว่างระหว่างการจำลองกับความเป็นจริงได้แคบลง ก่อนหน้านี้ต้องใช้ตัวจำลองที่สร้างขึ้นเอง (เช่น Isaac Sim, Newton Physics Engine) เพื่อฝึกอบรม แล้วหวังว่าผลลัพธ์ที่ได้จะสามารถนำไปใช้งานจริงได้ แต่ตอนนี้สามารถใช้ตัวจำลองที่ผ่านการฝึกอบรมและสามารถจับคู่กับวิดีโอจริงได้ในการฝึกอบรม จึงทำให้ช่องว่างเล็กลง
ข้อมูลที่สร้างขึ้นอย่างผสมผสานกำลังเติบโตอย่างระเบิด โมเดลโลกสามารถสร้างเส้นทางหุ่นยนต์ที่แตกต่างกันหลายล้านเส้นทางได้เกือบฟรี ครอบคลุมแสง วัสดุ และการจัดเรียงวัตถุที่หลากหลาย ซึ่งช่วยแก้ไขข้อจำกัดที่ใหญ่ที่สุดข้อหนึ่งของสาขา này

นอกจากนี้ มันยังมีข้อได้เปรียบด้านความปลอดภัยที่สำคัญ หุ่นยนต์ที่สามารถจำลองผลลัพธ์ของการกระทำสามารถปฏิเสธการดำเนินการที่อันตรายได้: ไม่ใช่เพราะข้อจำกัดของกฎที่ตั้งไว้ล่วงหน้า แต่เพราะมันคาดการณ์ว่าในอนาคตอาจมีผู้คนได้รับบาดเจ็บ

หุ่นยนต์รูปคน

สองวิธีการเคลื่อนที่: VLA ตอบสนองตามสิ่งที่เห็น; หุ่นยนต์แบบโมเดลโลกจะคิดก่อนเคลื่อนที่

十二：ยังควรรู้เพิ่มเติม

ปัญหาข้อมูลคือปัญหาแกนหลักที่แท้จริง: หากไม่สามารถให้ข้อมูลแก่โมเดลได้ การสร้างนวัตกรรมทางสถาปัตยกรรมทั้งหมดในโลกก็ไร้ประโยชน์ ขณะนี้ การดำเนินการระยะไกล (มนุษย์สวมอุปกรณ์ VR ควบคุมหุ่นยนต์แบบหุ่นเชิดจากระยะไกล) เป็นอุปสรรคทางเทคโนโลยีหลัก ความได้เปรียบในการแข่งขันของบริษัทหุ่นยนต์แต่ละแห่งกำลังขึ้นอยู่กับสายการผลิตการรวบรวมข้อมูลมากกว่าตัวโมเดลเอง บริษัท Zhiyuan Robotics ได้สร้างคลังสินค้าที่เต็มไปด้วยผู้ปฏิบัติงานแล้ว กฎการขยายความสามารถของ NVIDIA GR00T N1.7 แสดงให้เห็นว่าวิดีโอจากมุมมองของมนุษย์ในมุมมองบุคคลที่หนึ่งที่เพิ่มขึ้นจะช่วยเพิ่มความสามารถของหุ่นยนต์อย่างตรงไปตรงมาและสามารถคาดการณ์ได้ นี่ก็เป็นหนึ่งในเหตุผลที่จีนมีข้อได้เปรียบเชิงโครงสร้าง: ค่าใช้จ่ายแรงงานในการรวบรวมข้อมูลที่ต่ำกว่า สภาพแวดล้อมการใช้งานที่ยืดหยุ่นกว่า และรัฐบาลที่กำลังประสานงานซัพพลายเชนอย่างแข็งขัน

การจำลองเป็นจักรวาลคู่ขนาน NVIDIA Isaac Sim เครื่องยนต์ฟิสิกส์ Newton แบบเปิดแหล่งที่มาใหม่ (เวอร์ชัน 1.0 จะเปิดตัวอย่างเป็นทางการในเดือนเมษายน 2026) และแพลตฟอร์ม Omniverse ช่วยให้องค์กรสามารถฝึกหุ่นยนต์ในสภาพแวดล้อมจำลองหลายล้านแบบพร้อมกัน โดยไม่ต้องนำมันไปใช้งานในโลกจริง ฟังก์ชันส่วนใหญ่ที่ดูเหมือน “ปัญญาประดิษฐ์ของหุ่นยนต์” แท้จริงแล้วถูกพัฒนาขึ้นในสภาพแวดล้อมจำลอง ก่อนจะถ่ายโอนไปยังฮาร์ดแวร์

ผลทางเศรษฐกิจเริ่มปรากฏขึ้น โดย Unitree ได้ส่งมอบหุ่นยนต์รูปคนประมาณ 5,500 หน่วยในปี 2025 และมีแผนจะเพิ่มเป็น 10,000 ถึง 20,000 หน่วยในปี 2026 ราคาเฉลี่ยลดลงจาก 85,000 ดอลลาร์สหรัฐเป็น 25,000 ดอลลาร์สหรัฐภายในสองปี หุ่นยนต์ R1 ของ Unitree มีราคาอยู่ที่ 5,900 ดอลลาร์สหรัฐ ในขณะที่ Noetix Bumi มีราคาเปิดตลาดที่ 1,400 ดอลลาร์สหรัฐ ราคาฮาร์ดแวร์ของหุ่นยนต์รูปคนกำลังเข้าใกล้ระดับราคาของผลิตภัณฑ์อิเล็กทรอนิกส์เพื่อผู้บริโภค ขณะที่เทคโนโลยี AI ภายในยังคงล้าหลังจากผลิตภัณฑ์ที่แสดงตัวอย่าง ช่องว่างนี้จะค่อยๆ ลดลงในที่สุด เมื่อนั้น การขยายตัวของตลาดจะส่งผลกระทบอย่างมีนัยสำคัญต่ออุตสาหกรรมโดยรวม

รูปแบบการล้มเหลวดูแปลกประหลาด เมื่อหุ่นยนต์ที่อิงตาม LLM เกิดข้อผิดพลาด วิธีการล้มเหลวของพวกมันมักเป็นสิ่งที่หุ่นยนต์แบบดั้งเดิมไม่สามารถทำได้ เช่น การทำผิดอย่างมั่นใจ การรับรู้สิ่งต่างๆ แบบ “หลอน” หรือติดอยู่ในวัฏจักรการสนทนา vớiผู้วางแผนของตนเอง วงการหุ่นยนต์แบบดั้งเดิมมีความสงสัยอย่างมากต่อเรื่องนี้ ซึ่งก็มีเหตุผล เพราะพวกเขาเชื่อว่าระบบการเรียนรู้ต้องได้รับการตรวจสอบอย่างปลอดภัยและถูกจำกัดพฤติกรรม หุ่นยนต์ที่เชื่อถือได้ที่สุดที่ถูกนำไปใช้งานในปัจจุบันเป็นแบบไฮบริด: สมอง VLA ถูกวางไว้ภายในกรอบความปลอดภัยที่ออกแบบด้วยมือ

การเปรียบเทียบกับ “ช่วงเวลาของ ChatGPT” เป็นอุปมาที่มีประโยชน์แต่คลาดเคลื่อนเล็กน้อย: ฮวง เจินซวินได้บอกทุกคนมาโดยตลอดว่า ช่วงเวลาของ ChatGPT สำหรับหุ่นยนต์ได้มาถึงแล้ว เขาพูดแบบนี้เพราะ NVIDIA ขายจอบและค้อน ฉบับที่ซื่อตรงกว่าคือ: ขณะนี้อยู่ในยุค GPT-2 ของ AI ทางกายภาพ มันทรงพลังและทำให้คุณประทับใจ; แต่ยังไม่เพียงพอที่จะนำไปใช้งานโดยไม่มีคนดูแล มันกำลังมีการพัฒนาอย่างรวดเร็ว แต่ยังไม่ถึงจุดระเบิดที่จะแพร่กระจายแบบไวรัส แต่เป็นการเติบโตอย่างช้าๆ และมั่นคง

ข้อสรุป

หุ่นยนต์รูปคน

กระบวนการพัฒนาของหุ่นยนต์สี่ขา YuShu (จากขวาไปซ้าย)

ในการแสดงที่เห็นในสำนักงาน Unitree หุ่นยนต์รูปคนห้าตัวแสดงศิลปะการต่อสู้ โดยการเคลื่อนไหวถูกจัดเรียงอย่างระมัดระวัง ควบคุมด้วยระบบควบคุมแบบ VLA บนตัวเครื่อง และผู้ควบคุมระยะไกลตรวจสอบให้แน่ใจว่าทุกอย่างดำเนินไปอย่างราบรื่น โดยพื้นฐานแล้ว มันไม่ได้เป็นอิสระสมบูรณ์ แต่กระบวนการทั้งหมด: การรับรู้ การวางแผน และการควบคุมการเคลื่อนไหว กำลังถูกแทนที่ด้วยเครือข่ายประสาท สองปีต่อมา หุ่นยนต์รุ่นเดียวกันสามารถทำท่าเดียวกันได้โดยไม่ต้องจัดเรียงล่วงหน้า เพราะมันได้คิดแผนการทั้งหมดไว้ล่วงหน้าและเลือกเวอร์ชันที่ดีที่สุด

กระบวนการพัฒนาทั้งหมดที่อธิบายไว้ในบทความนี้: ตั้งแต่ตัวควบคุมที่เขียนด้วยมือ ไปจนถึงการรับรู้ด้วยการเรียนรู้ของเครื่อง แล้วไปสู่ตัววางแผน LLM ต่อมาเป็น VLA แล้วไปสู่สถาปัตยกรรมระบบคู่ และสุดท้ายคือโมเดลของโลก แท้จริงแล้วเป็นการเปลี่ยนแปลงอย่างช้าๆ ของปัญญาหุ่นยนต์ มันเริ่มต้นจากสมองของวิศวกร แล้วพัฒนาเป็นรหัสที่เขียนด้วยมือ ต่อมาเข้าสู่ชั้นการรับรู้ แล้วเข้าสู่ตัววางแผน แล้วเข้าสู่ชั้นกลยุทธ์ และตอนนี้ มันกำลังก้าวไปสู่การเรียนรู้แบบจำลองของโลกเอง

การเปลี่ยนแปลงแต่ละครั้งทำให้หุ่นยนต์มีความหลากหลาย ยืดหยุ่น และมีประโยชน์มากขึ้น หากการเปลี่ยนแปลงของโมเดลโลกประสบความสำเร็จ มันจะมอบความสามารถอันทรงพลังแก่หุ่นยนต์: ทรงพลังพอที่จะทำให้คำถามไม่ใช่ “หุ่นยนต์ทำอะไรได้บ้าง?” แต่เป็น “เราควรให้พวกมันทำอะไร?”

อ่านเพิ่มเติม: สรุปบริษัทหุ่นยนต์รูปคนกว่า 30 แห่ง: ใครจะชนะในปี 2026?