Elorian AI ระดมทุนได้ 55 ล้านดอลลาร์สหรัฐ เพื่อพัฒนาการให้เหตุผลเชิงภาพสำหรับ AGI ที่ใช้งานในโลกจริง

บทความโดย Alpha公社

ความสามารถของโมเดล AI ขนาดใหญ่ ในบางด้านได้เกินกว่าคนทั่วไปแล้ว เช่น การเขียนโปรแกรมและคณิตศาสตร์ ตามข่าวสาร Anthropic ภายในได้บรรลุการเขียนโปรแกรมด้วย AI ใกล้เคียง 100% และ Gemini Deep Think ของ Google สามารถแก้โจทย์ 5 จาก 6 ข้อในการแข่งขัน IMO 2025 ได้ระดับเหรียญทอง

แต่ในด้านการให้เหตุผลเชิงภาพ แม้แต่ Gemini 3 Pro ซึ่งมีระดับความก้าวหน้าสูงสุด ก็ยังสามารถทำได้เทียบเท่าเด็กอายุ 3 ขวบเท่านั้นใน Benchmark BabyVision ที่ทดสอบความสามารถพื้นฐานในการให้เหตุผลเชิงภาพ

ทำไมโมเดลขนาดใหญ่จึงแข็งแกร่งในด้านการเขียนโปรแกรมและคณิตศาสตร์ แต่อ่อนแอในการให้เหตุผลเชิงภาพ? เนื่องจากวิธีการคิดของมันมีข้อจำกัด โมเดลภาษา-ภาพ (VLM) ต้องแปลงข้อมูลเชิงภาพให้เป็นข้อความก่อน แล้วจึงดำเนินการให้เหตุผลตามข้อความ แต่ภารกิจเชิงภาพหลายอย่างไม่สามารถอธิบายได้อย่างแม่นยำด้วยภาษา ซึ่งส่งผลให้ความสามารถในการให้เหตุผลเชิงภาพของโมเดลต่ำ

แอนดรูว์ ได ซึ่งเคยทำงานที่ Google DeepMind มา 14 ปี ร่วมกับยินเฟย ยัง ผู้เชี่ยวชาญด้าน AI จากแอปเปิล ได้ก่อตั้งบริษัทชื่อ Elorian AI โดยมีเป้าหมายเพื่อยกระดับความสามารถในการให้เหตุผลทางภาพของโมเดลจากระดับเด็กไปสู่ระดับผู้ใหญ่ และทำให้โมเดลมีความสามารถในการคิดแบบพื้นฐานใน “พื้นที่ทางภาพ” จริง เพื่อท้าทาย AGI ในโลกทางกายภาพ

Elorian AI ได้รับการระดมทุนระยะเริ่มต้น 55 ล้านดอลลาร์สหรัฐจากผู้นำการลงทุนร่วมได้แก่ Striker Venture Partners, Menlo Ventures และ Altimeter โดยมี 49 Palms และนักวิทยาศาสตร์ AI ชั้นนำรวมถึง Jeff Dean เข้าร่วมการลงทุน

ผู้บุกเบิกโมเดลหลายรูปแบบ ต้องการให้โมเดลภาพมีความสามารถในการให้เหตุผล

แอนดรูว์ ได ผู้เป็นชาวจีน สำเร็จการศึกษาด้านคอมพิวเตอร์จากมหาวิทยาลัยเคมบริดจ์ และได้รับปริญญาเอกด้านการเรียนรู้ของเครื่องจากมหาวิทยาลัยเอดินเบอระ เขาเคยฝึกงานที่กูเกิลระหว่างเรียนปริญญาเอก และเข้าร่วมกูเกิลในปี 2012 อยู่มาตลอด 14 ปี ก่อนจะก่อตั้งธุรกิจของตนเอง

Yinfei Yang
ที่มาของรูปภาพ: LinkedIn ของ Andrew Dai

หลังจากเข้าร่วมกูเกิลไม่นาน เขาก็ร่วมเขียนบทความแรกเกี่ยวกับการฝึกล่วงหน้าของโมเดลภาษาและการปรับแต่งด้วยการเรียนรู้แบบมีผู้ดูแลชื่อ “Semi-supervised Sequence Learning” บทความนี้เป็นรากฐานสำคัญสำหรับการเกิดขึ้นของ GPT อีกหนึ่งบทความที่มีความสำคัญเชิงรากฐานของเขาคือ “Glam: Efficient scaling of language models with mixture-of-experts” ซึ่งเปิดทางให้กับสถาปัตยกรรม MoE ที่เป็นที่นิยมในปัจจุบัน

หยินเฟย หยาง ที่มาของรูปภาพ: Google

ในระหว่างที่อยู่ที่ Google เขายังมีส่วนร่วมอย่างลึกซึ้งในการฝึกโมเดลขนาดใหญ่เกือบทั้งหมด ตั้งแต่ PaLM ถึง Gemini 1.5 และ Gemini 2.5 ภายใต้การจัดการของ Jeff Dean เขาเริ่มรับผิดชอบนำทีมด้านข้อมูลของ Gemini (รวมถึงข้อมูลที่สร้างขึ้น) ตั้งแต่ปี 2023 และทีมนี้ต่อมาได้ขยายขนาดเป็นหลายร้อยคน

ที่มาของรูปภาพ: LinkedIn ของ Yinfei Yang

ร่วมก่อตั้งกับ Andrew Dai คือ Yinfei Yang ซึ่งเคยทำงานที่ Google Research เป็นเวลาสี่ปี โดยเน้นที่การเรียนรู้การแทนค่าแบบหลายโมดัลities จากนั้นจึงย้ายไปที่ Apple เพื่อรับผิดชอบการพัฒนาโมเดลแบบหลายโมดัลities

ที่มาของรูปภาพ: arxiv

ผลงานวิจัยที่เป็นตัวแทนของเขาเรื่อง《Scaling up visual and vision-language representation learning with noisy text supervision》ได้ผลักดันการพัฒนาการเรียนรู้การแทนค่าแบบหลายโมดัล

ผู้ร่วมก่อตั้ง Elorian AI ยังรวมถึง Seth Neel ซึ่งเคยเป็นผู้ช่วยศาสตราจารย์ (AP) ที่มหาวิทยาลัยฮาร์วาร์ด และเป็นผู้เชี่ยวชาญด้านข้อมูลและ AI

ทำไมต้องพูดถึงบทความเชิงริเริ่มที่ผู้ร่วมก่อตั้ง Elorian AI เขียน? เพราะสิ่งที่พวกเขาต้องการทำไม่ใช่การปรับปรุงในระดับวิศวกรรม แต่เป็นการอัปเดตรูปแบบจากโครงสร้างพื้นฐาน ทำให้ AI ก้าวข้ามจากการเข้าใจปัญญาที่อิงข้อความ มาเป็นการเข้าใจปัญญาที่อิงภาพ

ปัจจุบันสถานการณ์ของโมเดล AI คือ แม้จะแสดงประสิทธิภาพดีเยี่ยมในงานที่อิงข้อความ แต่แม้แต่โมเดลขนาดใหญ่แบบหลายรูปแบบขั้นสูงสุดก็ยังล้มเหลวในงานพื้นฐานด้านการจับคู่ภาพ (Visual grounding)

ตัวอย่างเช่น วิธีการประกอบชิ้นส่วนหนึ่งให้พอดีกับอุปกรณ์เครื่องจักรชุดหนึ่ง เพื่อให้ทำงานได้แม่นยำและมีประสิทธิภาพมากขึ้น งานทางฟิสิกส์เชิงพื้นที่เช่นนี้สำหรับนักเรียนประถมศึกษาถือว่าง่าย แต่สำหรับโมเดลขนาดใหญ่แบบหลายรูปแบบในปัจจุบันกลับทำได้ยาก

ยังคงต้องหาคำใบ้จากชีววิทยา ในสมองของมนุษย์ การมองเห็นเป็นพื้นฐานที่รองรับกระบวนการคิดหลายอย่าง ความสามารถของมนุษย์ในการใช้การมองเห็นและการให้เหตุผลเชิงพื้นที่นั้นเก่าแก่กว่าการให้เหตุผลด้วยภาษาอย่างมาก

ตัวอย่างเช่น การสอนคนอื่นให้ผ่านเขาวงกตโดยใช้คำพูดอธิบาย อาจทำให้คนสับสน แต่การวาดแผนผังคร่าวๆ กลับช่วยให้คนเข้าใจทันที

อีกตัวอย่างหนึ่งคือ แม้แต่นกที่ไม่มีภาษา ก็สามารถใช้การมองเห็นในการระบุและวิเคราะห์ลักษณะทางภูมิศาสตร์ เพื่อทำการอพยพข้ามโลกได้ นี่เป็นสัญญาณที่ชัดเจนว่า การพัฒนาความสามารถในการให้เหตุผลของเครื่องจักร น่าจะมีทิศทางที่ถูกต้องผ่านการมองเห็น

ลองจินตนาการว่า หากตั้งแต่เริ่มต้นการสร้างโมเดล เราพยายามฝังสัญชาตญาณทางการมองเห็นทางชีววิทยานี้ลงในยีนของ AI เพื่อสร้างโมเดลแบบหลายรูปแบบแบบดั้งเดิมที่สามารถ “เข้าใจและประมวลผลข้อความ รูปภาพ วิดีโอ และเสียงได้พร้อมกัน” โมเดลนี้จะมีความสามารถในการเข้าใจภาพทางสายตา Andrew Dai และทีมของเขาต้องการสร้าง “ผู้รับรู้แบบประสาทสัมผัสหลายอย่าง” ที่เกิดมาพร้อมกับความสามารถ ฝึกสอนเครื่องจักรไม่เพียงแต่ “เห็น” โลก แต่ยัง “เข้าใจ” โลก

ในมุมมองของแอนดรูว์ ได และทีมงาน การเข้าใจอย่างลึกซึ้งถึง “โลกทางกายภาพ” ที่แท้จริงคือกุญแจสำคัญในการบรรลุการก้าวกระโดดของปัญญาประดิษฐ์รุ่นถัดไป และสุดท้ายคือการเข้าถึง “ปัญญาประดิษฐ์ทั่วไปด้านภาพ (Visual AGI)”

การใช้ VLM แบบอ้างอิงหลังไม่ใช่ทางที่ถูกต้องในการเข้าถึงการให้เหตุผลทางภาพ

เคยมีทีมพยายามทำสิ่งนี้มาก่อนแล้ว จริงๆ แล้ว Andrew Dai ซึ่งเคยอยู่ทีม Gemini เป็นทีมที่นำหน้าในด้านหลายรูปแบบระดับโลก แต่โมเดลหลายรูปแบบแบบดั้งเดิมยังคงเน้นที่ VLM (Visual Language Model) โดยมีตรรกะที่อิงบน “ขั้นตอนสองขั้นตอน”: ก่อนอื่นแปลงอินพุตภาพให้เป็นภาษา จากนั้นจึงดำเนินการให้เหตุผลตามข้อความ (บางครั้งช่วยเรียกใช้เครื่องมือภายนอก)

อย่างไรก็ตาม การให้เหตุผลแบบหลังเกิดขึ้นนั้น มีข้อจำกัดในตัวเอง โดย一方面ง่ายต่อการเกิดภาพหลอนของโมเดล และอีกด้านหนึ่ง งานด้านภาพจำนวนมากไม่สามารถอธิบายได้อย่างแม่นยำด้วยข้อความ

นอกจากนี้ โมเดลการสร้างภาพอย่าง NanoBanana มีความสามารถโดดเด่นในการสร้างแบบมัลติมีเดีย แต่ความสามารถในการสร้างไม่ได้เท่ากับความสามารถในการให้เหตุผล โดยการ “คิด” ก่อนการสร้างของมันยังคงพึ่งพาโมเดลภาษา ไม่ใช่ความสามารถในการให้เหตุผลแบบดั้งเดิม

เพื่อพัฒนาโมเดลที่สามารถเข้าใจความซับซ้อนของพื้นที่ โครงสร้าง และความสัมพันธ์ในโลกแห่งภาพได้อย่างแท้จริง จำเป็นต้องมีนวัตกรรมที่ล้ำหน้าในเทคโนโลยีพื้นฐาน

แล้วจะสร้างนวัตกรรมได้อย่างไร? ผู้ก่อตั้งหลายรายของ Elorian AI มีประสบการณ์ยาวนานในด้านมัลติโมดัล วิธีการของพวกเขาคือการผสานการฝึกอบรมมัลติโมดัลอย่างลึกซึ้งกับสถาปัตยกรรมใหม่ที่ออกแบบมาโดยเฉพาะสำหรับการให้เหตุผลมัลติโมดัล พวกเขาละทิ้งวิธีการแบบดั้งเดิมที่มองภาพเป็นอินพุตแบบนิ่ง แล้วหันมาฝึกโมเดลให้สามารถโต้ตอบและจัดการกับตัวแทนทางภาพ (Visual representations) โดยตรง เพื่อแยกแยะโครงสร้าง ความสัมพันธ์ และข้อจำกัดทางกายภาพภายในอย่างอิสระ

Of course, another core element is data, which determines the performance and success or failure of these models.

แอนดรูว์ ได กล่าวว่า พวกเขาให้ความสำคัญกับคุณภาพข้อมูล อัตราส่วนการผสมข้อมูล แหล่งที่มาของข้อมูล และความหลากหลายของข้อมูล และได้ทำการปรับปรุงในระดับข้อมูล โดยการรีคอนสตรัคต์เส้นทางการให้เหตุผลในพื้นที่เชิงภาพ รวมถึงใช้ข้อมูลที่สร้างขึ้นอย่างกว้างขวางและลึกซึ้ง

ความพยายามเหล่านี้เมื่อรวมกัน จะก่อให้เกิดระบบ AI ใหม่ที่สามารถก้าวข้ามการ “รับรู้” ทางภาพแบบง่ายๆ ไปสู่การ “ให้เหตุผล” ทางภาพระดับสูง

ระบบ AI นี้สามารถเป็นโมเดลพื้นฐานด้านการให้เหตุผลเชิงภาพ: คือการสร้างโมเดลที่มีความเป็นสากลสูง แต่มีประสิทธิภาพยอดเยี่ยมในชุดความสามารถเฉพาะด้าน ซึ่งความสามารถเฉพาะด้านนั้นคือการให้เหตุผลเชิงภาพ

เนื่องจากเป็นโมเดลพื้นฐานทั่วไป โดเมนการใช้งานจึงควรกว้างขวาง

ก่อนอื่น ในสายงานหุ่นยนต์ มันสามารถเป็นศูนย์กลางระบบประสาทพื้นฐานที่แข็งแกร่ง ทำให้สามารถทำงานได้อย่างอิสระในสภาพแวดล้อมที่ไม่คุ้นเคยต่างๆ

ตัวอย่างเช่น ในสนามหุ่นยนต์ การส่งหุ่นยนต์ไปจัดการกับข้อผิดพลาดด้านความปลอดภัยฉุกเฉินในสภาพแวดล้อมอันตราย จำเป็นต้องให้หุ่นยนต์ตัดสินใจอย่างรวดเร็วและแม่นยำในทันที หากหุ่นยนต์ไม่มีโมเดลพื้นฐานที่สามารถให้เหตุผลเชิงลึก ผู้คนจะไม่กล้าให้มันกดปุ่มหรือจัดการคันโยกแบบสุ่มเสี่ยง แต่หากมันมีความสามารถในการให้เหตุผลที่แข็งแกร่งมาก มันอาจคิดว่า: “ก่อนที่จะดำเนินการกับแผงนี้ อาจควรดึงคันโยกนี้ก่อน เพื่อเปิดใช้งานกลไกป้องกันความปลอดภัย”

นอกจากนี้ในด้านการจัดการภัยพิบัติ โมเดลที่มีความสามารถในการให้เหตุผลทางภาพสามารถวิเคราะห์ภาพถ่ายจากดาวเทียมเพื่อตรวจสอบและป้องกันไฟป่า; ในด้านวิศวกรรม มันสามารถอ่านแบบร่างทางภาพที่ซับซ้อนและแผนผังระบบได้อย่างแม่นยำ ความหมายของความสามารถนี้คือ กฎเกณฑ์ของการทำงานในโลกทางกายภาพแตกต่างจากโลกของโค้ดบริสุทธิ์อย่างสิ้นเชิง คุณไม่สามารถออกแบบปีกเครื่องบินได้เพียงแค่พิมพ์โค้ดไม่กี่บรรทัด

อย่างไรก็ตาม ขณะนี้โมเดลและความสามารถของ Elorian AI ยังคงอยู่บนกระดาษเท่านั้น พวกเขาวางแผนจะเปิดตัวโมเดลที่มีประสิทธิภาพระดับ SOTA ในด้านการให้เหตุผลเชิงภาพในปี 2026 ซึ่ง届时จะสามารถตรวจสอบได้ว่าผลลัพธ์ของพวกเขาสอดคล้องกับคำอ้างหรือไม่

เมื่อ AI มีความสามารถในการ “ให้เหตุผลเชิงภาพ” จริงๆ มันจะเปลี่ยนแปลงโลกทางกายภาพอย่างไร

เพื่อให้ AI สามารถเข้าใจและมีอิทธิพลต่อโลกทางกายภาพ เทคโนโลยีได้รับการพัฒนาหลายครั้ง

จากการรับรู้ภาพในยุค CV แบบดั้งเดิม ไปจนถึงโมเดลการสร้างภาพของ AI แบบสร้างสรรค์/โมเดลแบบหลายโมดัล แล้วไปถึงโมเดลของโลก ความเข้าใจเกี่ยวกับโลกทางกายภาพได้รับการเสริมสร้างอย่างต่อเนื่อง

ในขณะเดียวกัน โมเดลพื้นฐานด้านการให้เหตุผลเชิงภาพมีแนวโน้มที่จะก้าวหน้าต่อไปอีก เพราะเมื่อ AI สามารถทำการให้เหตุผลเชิงภาพได้ มันจะสามารถเข้าใจโลกทางกายภาพอย่างลึกซึ้งยิ่งขึ้น และบรรลุปัญญาของเครื่องในระดับที่สูงกว่า

ลองจินตนาการว่า เมื่อโมเดลที่มีความเข้าใจลึกซึ้งและการดำเนินการอย่างละเอียดอ่อนมาช่วย “ชาร์จพลัง” ให้กับอุตสาหกรรมเอ็มบอดีอินเทลลิเจนซ์และอุตสาหกรรมฮาร์ดแวร์ AI จะช่วยขยายขอบเขตการใช้งานของพวกเขาอย่างมาก ตัวอย่างเช่น หุ่นยนต์สามารถดำเนินการผลิตในอุตสาหกรรมที่ต้องการความน่าเชื่อถือสูง หรือในด้านการดูแลสุขภาพ; ฮาร์ดแวร์ AI โดยเฉพาะอุปกรณ์สวมใส่ กลายเป็นผู้ช่วยส่วนตัวที่ฉลาดยิ่งขึ้น

อย่างไรก็ตาม ที่พื้นฐานของเทคโนโลยีเหล่านี้ยังคงเป็นข้อมูล Andrew Dai ได้ระบุไว้ก่อนหน้านี้ว่า คุณภาพของข้อมูล อัตราส่วนการผสมข้อมูล แหล่งที่มาของข้อมูล และความหลากหลายของข้อมูล ล้วนมีผลต่อประสิทธิภาพของโมเดล

ในสาขา AI ทางกายภาพ บริษัทจีนไม่ว่าในระดับโมเดลหรือระดับข้อมูล ต่างอยู่ใกล้เคียงกับระดับผู้นำของโลกมากกว่าโมเดลข้อความขนาดใหญ่ หากสามารถใช้ข้อได้เปรียบด้านข้อมูลและแอปพลิเคชันที่หลากหลายในการเร่งความเร็วในการปรับปรุงซ้ำ ไม่ว่าจะเป็นปัญญาเชิงกายภาพหรือฮาร์ดแวร์ AI ไม่ว่าจะนำไปใช้ในอุตสาหกรรม การแพทย์ หรือครัวเรือน ก็มีโอกาสสูงที่จะบรรลุระดับผู้นำ และยังมีโอกาสที่จะสร้างบริษัทระดับโลก