เดมิส ฮัสซาบิส เกี่ยวกับเส้นเวลาของ AGI ความก้าวหน้าทางวิทยาศาสตร์ และอนาคตของ DeepMind

จัดระเบียบและรวบรวมโดย Deep潮 TechFlow

ผู้ร่วมรายการ: เดมิส ฮัสซาบิส (ผู้ก่อตั้ง DeepMind ผู้ได้รับรางวัลโนเบลเคมีปี 2024 หัวหน้า Google DeepMind)

ผู้ดำเนินรายการ: Gary Tan

แหล่งพอดี: Y Combinator

เดมิส ฮัสซาบิส: ตัวแทน, AGI และความก้าวหน้าทางวิทยาศาสตร์ครั้งใหญ่ครั้งต่อไป

เวลาออกอากาศ: 29 เมษายน 2026

แก้ไขคำนำ

ซีอีโอของ Google DeepMind และผู้ได้รับรางวัลโนเบลทางเคมี เดมิส ฮัสซาบิส ได้เข้าร่วมรายการของ Y Combinator เพื่อพูดคุยเกี่ยวกับความก้าวหน้าสำคัญที่ยังคงขาดหายไปบนเส้นทางสู่ AGI คำแนะนำสำหรับผู้ประกอบการเกี่ยวกับวิธีรักษาความได้เปรียบ และการคาดการณ์ว่าการค้นพบทางวิทยาศาสตร์ครั้งใหญ่ครั้งต่อไปอาจเกิดขึ้นที่ใด การตัดสินใจที่เป็นประโยชน์ที่สุดสำหรับผู้ประกอบการด้านเทคโนโลยีลึกคือ หากคุณเริ่มโครงการเทคโนโลยีลึกที่มีระยะเวลา 10 ปีในวันนี้ คุณต้องรวมการปรากฏตัวของ AGI เข้าไว้ในแผนการของคุณ นอกจากนี้ เขายังเปิดเผยว่า Isomorphic Labs (บริษัทเภสัชกรรม AI ที่แยกตัวออกจาก DeepMind) จะมีข่าวสำคัญออกมาในเร็วๆ นี้

Quotes ที่โดดเด่น

เส้นทางและตารางเวลาของ AGI

องค์ประกอบเทคโนโลยีเหล่านี้เกือบแน่นอนจะกลายเป็นส่วนหนึ่งของสถาปัตยกรรม AGI ในที่สุด
ยังไม่ได้แก้ปัญหาบางประการเกี่ยวกับการเรียนรู้อย่างต่อเนื่อง การให้เหตุผลระยะยาว และความจำ AGI ต้องแก้ให้ครบถ้วน
หากเส้นเวลาของคุณสำหรับ AGI คล้ายกับของฉันที่ประมาณปี 2030 และคุณเริ่มโครงการด้านเทคโนโลยีล้ำสมัยวันนี้ คุณต้องพิจารณาถึงความเป็นไปได้ที่ AGI จะปรากฏขึ้นระหว่างทาง

หน่วยความจำและหน้าต่างบริบท

หน้าต่างบริบทโดยประมาณเทียบได้กับความจำในการทำงาน ความจำในการทำงานของมนุษย์โดยเฉลี่ยมีเพียงเจ็ดตัวเลข แต่เรามีหน้าต่างบริบทหลายล้านหรือหลายสิบล้านโทเค็น แต่ปัญหาคือเราเติมทุกอย่างลงไปภายในนั้น รวมถึงข้อมูลที่ไม่สำคัญและข้อมูลผิดพลาด วิธีการนี้ในปัจจุบันค่อนข้างหยาบกร้าน
หากต้องจัดการสตรีมวิดีโอแบบเรียลไทม์และเก็บ token ทั้งหมดไว้ หนึ่งล้าน token จะเพียงพอประมาณ 20 นาทีเท่านั้น

ข้อบกพร่องของการให้เหตุผล

ฉันชอบเล่นหมากรุกกับ Gemini มันบางครั้งรู้ว่าเป็นการเดินที่แย่ แต่ไม่สามารถหาการเดินที่ดีกว่าได้ จึงวนกลับมาเดินการที่แย่นั้นอีกครั้ง แต่ระบบการให้เหตุผลที่แม่นยำไม่ควรเกิดสถานการณ์แบบนี้
มันสามารถแก้โจทย์ระดับเหรียญทอง IMO ได้ในทางหนึ่ง แต่ถ้าถามในรูปแบบอื่น มันกลับทำผิดข้อผิดพลาดคณิตศาสตร์ระดับประถมศึกษา ดูเหมือนว่ามันยังขาดบางอย่างในการสะท้อนความคิดของตัวเอง

ตัวแทนและความคิดสร้างสรรค์

เพื่อให้บรรลุ AGI คุณต้องมีระบบที่สามารถแก้ปัญหาให้คุณได้อย่างอัตโนมัติ Agent คือทางนั้น ฉันคิดว่าเรายังแค่เริ่มต้น
ฉันยังไม่เคยเห็นใครใช้ vibe coding สร้างเกม 3A ที่ขึ้นอันดับหนึ่งในร้านแอปพลิเคชัน ด้วยพลังงานที่ลงทุนไปในขณะนี้ นี่ควรจะเป็นไปได้ แต่ยังไม่เกิดขึ้น แสดงว่ายังขาดบางอย่างในเครื่องมือหรือกระบวนการ

Distillation and Small Models

เราสมมติว่า หลังจากเปิดตัวโมเดล Pro ขั้นสูงมาแล้วหกเดือนถึงหนึ่งปี ความสามารถของมันจะสามารถบีบอัดให้เล็กลงจนสามารถรันบนอุปกรณ์ขอบได้ ขณะนี้ยังไม่ได้พบขีดจำกัดด้านความหนาแน่นของข้อมูลทางทฤษฎี

Scientific discoveries and the "Einstein Test"

บางครั้งฉันเรียกมันว่า “การทดสอบไอน์สไตน์” คือ能否ใช้ความรู้ในปี 1901 ฝึกฝนระบบ แล้วให้ระบบสามารถสรุปผลลัพธ์ที่ไอน์สไตน์ค้นพบในปี 1905 ได้ด้วยตัวเอง รวมถึงทฤษฎีสัมพัทธภาพพิเศษ เมื่อทำได้ ระบบเหล่านี้ก็ใกล้จะค้นพบสิ่งใหม่ๆ อย่างแท้จริงแล้ว
การแก้ปัญหาหนึ่งในปัญหารางวัลแห่งศตวรรษถือว่าเป็นเรื่องที่น่าทึ่งอยู่แล้ว แต่ที่ยากกว่านั้นคือ คุณจะสามารถเสนอชุดของปัญหารางวัลแห่งศตวรรษใหม่ ที่นักคณิตศาสตร์ชั้นนำมองว่าลึกซึ้งและคุ้มค่ากับการใช้ชีวิตทั้งชีวิตเพื่อศึกษาหรือไม่

คำแนะนำสำหรับสตาร์ทอัพด้านเทคโนโลยีขั้นสูง

การตามตามปัญหาที่ยากกับการตามตามปัญหาที่ง่าย แท้จริงแล้วคล้ายกัน แค่ความยากต่างกันเท่านั้น ชีวิตสั้นมาก ทำไมไม่ใช้พลังงานไปกับสิ่งที่ถ้าคุณไม่ทำ ก็จะไม่มีใครทำเลย

เส้นทางการพัฒนา AGI

เกอร์รี แทน: คุณได้คิดเกี่ยวกับ AGI มานานกว่าคนส่วนใหญ่แทบทุกคน ดูจากกรอบแนวคิดปัจจุบัน คุณคิดว่าเรามีโครงสร้างสุดท้ายของ AGI อยู่แล้วมากน้อยเพียงใด? สิ่งที่ขาดหายไปอย่างพื้นฐานในขณะนี้คืออะไร?

เดมิส ฮัสซาบิส: การฝึกล่วงหน้าในขนาดใหญ่, RLHF, โซ่ความคิด ฯลฯ ฉันเชื่อมั่นว่าเทคโนโลยีเหล่านี้จะกลายเป็นส่วนหนึ่งของสถาปัตยกรรม AGI สุดท้าย เทคโนโลยีเหล่านี้ได้พิสูจน์ตัวเองไปแล้วมากมายจนเกินกว่าจะจินตนาการได้ว่าในอีกสองปีข้างหน้าเราจะพบว่ามันเป็นทางตัน ซึ่งฟังดูไม่น่าเป็นไปได้สำหรับฉัน แต่บนพื้นฐานของสิ่งที่มีอยู่แล้ว อาจยังขาดอีกหนึ่งหรือสองอย่าง เช่น การเรียนรู้อย่างต่อเนื่อง (continual learning), การให้เหตุผลระยะยาว (long-term reasoning), และบางแง่มุมของความจำ ยังมีปัญหาที่ยังไม่ได้รับการแก้ไข AGI ต้องแก้ไขให้ครบถ้วนทั้งหมด บางทีเทคโนโลยีปัจจุบันบวกกับนวัตกรรมแบบค่อยเป็นค่อยไปอาจเพียงพอที่จะขยายไปถึงระดับนั้น แต่ก็อาจยังเหลืออีกหนึ่งหรือสองจุดสำคัญที่ต้องมีการพัฒนาให้ก้าวกระโดด ฉันไม่คิดว่าจะเกินหนึ่งหรือสองจุด ในการตัดสินส่วนตัวของฉัน ความน่าจะเป็นที่จะมีจุดสำคัญที่ยังไม่ได้แก้ไขนี้อยู่ที่ประมาณห้าสิบเปอร์เซ็นต์ ดังนั้นที่ Google DeepMind เราจึงดำเนินการทั้งสองแนวทางพร้อมกัน

เกอร์รี แทน: ฉันทำงานกับระบบตัวแทนจำนวนมาก สิ่งที่ทำให้ฉันประหลาดใจที่สุดคือ น้ำหนักพื้นฐานที่กลับไปกลับมาล้วนเป็นชุดเดียวกัน ดังนั้นแนวคิดเรื่องการเรียนรู้อย่างต่อเนื่องจึงน่าสนใจมาก เพราะตอนนี้เราแทบจะใช้เทปพันยึดชั่วคราวอยู่ เช่น สิ่งต่างๆ เช่น “ช่วงความฝีกลางคืน”

เดมิส ฮัสซาบิส: ใช่ วงจรฝันเหล่านั้นน่าสนใจมาก เราเคยพิจารณาเรื่องนี้มาแล้วในบริบทของการรวมหน่วยความจำเชิงบริบท ผมศึกษาปริญญาเอกเกี่ยวกับฮิปโปแคมปัสว่ามันรวมความรู้ใหม่เข้ากับระบบที่มีอยู่แล้วได้อย่างไรอย่างสง่างาม สมองทำสิ่งนี้ได้ยอดเยี่ยมมาก มันดำเนินกระบวนการนี้ระหว่างการนอนหลับ โดยเฉพาะในช่วงการนอนหลับที่มีการเคลื่อนไหวของดวงตาอย่างรวดเร็ว (REM sleep) โดยการเล่นซ้ำประสบการณ์ที่สำคัญเพื่อเรียนรู้จากมัน โปรแกรม Atari รุ่นแรกของเรา DQN (Deep Q-Network ที่ DeepMind ตีพิมพ์ในปี 2013 ซึ่งเป็นครั้งแรกที่ใช้การเรียนรู้แบบเสริมแรงเชิงลึกเพื่อให้บรรลุระดับมนุษย์ในเกม Atari) สามารถเรียนรู้เกม Atari ได้ด้วยวิธีสำคัญอย่างหนึ่งคือการเล่นซ้ำประสบการณ์ (experience replay) ซึ่งเราได้แรงบันดาลใจมาจากศาสตร์ทางประสาทวิทยา โดยการเล่นซ้ำเส้นทางที่ประสบความสำเร็จหลายครั้ง นี่คือเหตุการณ์ในปี 2013 ซึ่งในวงการ AI ถือเป็นยุคโบราณ แต่ในเวลานั้นมันมีความสำคัญอย่างยิ่ง

ฉันเห็นด้วยกับสิ่งที่คุณพูด ตอนนี้เราแทบจะใช้เทปใส่ทุกอย่างลงในหน้าต่างบริบท รู้สึกไม่ถูกต้องเลย แม้ว่าเราอาจสร้างเครื่องจักรแทนสมองมนุษย์ ซึ่ง理论上สามารถมีหน้าต่างบริบทนับล้านหรือหลายล้าน และความจำสามารถสมบูรณ์แบบได้ แต่ค่าใช้จ่ายในการค้นหาและเรียกคืนข้อมูลยังคงมีอยู่ ในช่วงเวลาที่ต้องตัดสินใจอย่างเฉพาะเจาะจงนี้ การหาข้อมูลที่เกี่ยวข้องจริงๆ ยังไม่ใช่เรื่องง่าย แม้ว่าคุณจะเก็บทุกอย่างไว้ได้หมด ดังนั้นฉันคิดว่ายังมีพื้นที่สำหรับนวัตกรรมมากมายในด้านความจำ

แกรี แทน: พูดตามตรง หน้าต่างบริบทที่มีหนึ่งล้านโทเค็นนั้นกว้างกว่าที่ฉันคาดไว้มาก และสามารถทำได้หลายอย่าง

เดมิส ฮัสซาบิส: มันใหญ่พอสำหรับกรณีการใช้งานส่วนใหญ่ แต่ลองคิดดูว่า หน้าต่างบริบทโดยประมาณเทียบได้กับความจำในการทำงาน ความจำในการทำงานของมนุษย์โดยเฉลี่ยมีเพียงเจ็ดตัวเลขเท่านั้น ในขณะที่เรามีหน้าต่างบริบทขนาดล้านหรือสิบล้านตัว ปัญหาคือเราเติมทุกอย่างลงไปภายในนั้น รวมถึงข้อมูลที่ไม่สำคัญและข้อมูลผิดพลาด ซึ่งวิธีการนี้ยังคงค่อนข้างหยาบกร้าน และหากคุณต้องการจัดการสตรีมวิดีโอแบบเรียลไทม์ โดยบันทึก token ทั้งหมดอย่างง่ายๆ หนึ่งล้าน token จะเพียงพอสำหรับประมาณ 20 นาทีเท่านั้น แต่หากคุณต้องการให้ระบบเข้าใจชีวิตของคุณในช่วงหนึ่งหรือสองเดือนที่ผ่านมา นั่นยังห่างไกลจากความเพียงพอ

เกอร์รี แทน: DeepMind ได้ลงทุนอย่างลึกซึ้งในเรื่องการเรียนรู้แบบเสริมแรงและการค้นหา ปรัชญานี้ถูกฝังไว้ลึกแค่ไหนในกระบวนการที่คุณสร้าง Gemini ตอนนี้? การเรียนรู้แบบเสริมแรงยังถูกมองข้ามอยู่หรือไม่?

เดมิส ฮัสซาบิส: อาจถูกประเมินต่ำเกินไปจริงๆ ความสนใจในด้านนี้มีขึ้นลง สิ่งที่เราทำตั้งแต่วันแรกที่ก่อตั้ง DeepMind คือระบบ Agent งานทั้งหมดบน Atari และ AlphaGo ล้วนเป็นระบบ Agent แบบการเรียนรู้แบบเสริมแรง ที่สามารถบรรลุเป้าหมาย ตัดสินใจ และวางแผนด้วยตนเอง แน่นอนว่าในตอนนั้นเราเลือกโดเมนเกม เพราะมีความซับซ้อนที่ควบคุมได้ จากนั้นจึงค่อยๆ พัฒนาไปสู่เกมที่ซับซ้อนยิ่งขึ้น เช่น หลังจาก AlphaGo เราได้พัฒนา AlphaStar โดยพื้นฐานแล้วเราได้ทำเกมทุกประเภทที่สามารถทำได้

คำถามต่อไปคือ เราสามารถทั่วไปโมเดลเหล่านี้ให้เป็นโมเดลของโลกหรือโมเดลภาษา ไม่ใช่แค่โมเดลเกมเท่านั้นหรือไม่ ในช่วงไม่กี่ปีที่ผ่านมา เราได้ทำสิ่งนี้อยู่ รูปแบบการคิดและการให้เหตุผลแบบห่วงโซ่ความคิดของโมเดลชั้นนำทั้งหมดในวันนี้ 本质上คือการกลับมาของสิ่งที่ AlphaGo สร้างขึ้นในอดีต ฉันรู้สึกว่าผลงานจำนวนมากที่เราทำในสมัยนั้นมีความเกี่ยวข้องอย่างมากกับปัจจุบัน เรากำลังทบทวนแนวคิดเก่าๆ เหล่านั้นอีกครั้ง โดยใช้ขนาดที่ใหญ่ขึ้นและวิธีการที่เป็นสากลมากขึ้น รวมถึงวิธีการเรียนรู้แบบเสริมแรงต่างๆ เช่น การค้นหาต้นไม้มอนติคาร์โล (Monte Carlo tree search) ความคิดของ AlphaGo และ AlphaZero มีความเกี่ยวข้องอย่างยิ่งกับโมเดลพื้นฐานในปัจจุบัน ฉันเชื่อว่าความก้าวหน้าในอีกไม่กี่ปีข้างหน้าจะมาจากการนี้เป็นส่วนใหญ่

Distillation and Small Models

เกอร์รี แทน: ตอนนี้การเป็นฉลาดขึ้นต้องการโมเดลที่ใหญ่กว่า แต่ในขณะเดียวกัน เทคโนโลยีการกลั่นก็พัฒนาขึ้น ทำให้โมเดลเล็กสามารถเร็วขึ้นมาก โมเดล Flash ของคุณแข็งแกร่งมาก สามารถบรรลุประสิทธิภาพใกล้เคียงกับโมเดลชั้นนำถึง 95% แต่มีราคาเพียงหนึ่งในสิบ ถูกต้องไหม?

เดมิส ฮัสซาบิส: ฉันคิดว่านี่เป็นหนึ่งในข้อได้เปรียบหลักของเรา คุณต้องสร้างโมเดลที่ใหญ่ที่สุดก่อนเพื่อให้ได้ความสามารถระดับนำหน้า ข้อได้เปรียบหลักของเราอย่างหนึ่งคือสามารถกลั่นและบีบอัดความสามารถเหล่านั้นลงสู่โมเดลที่เล็กลงเรื่อยๆ ได้อย่างรวดเร็ว วิธีการกลั่นนี้เราเป็นผู้คิดค้นขึ้นเอง และตอนนี้เรายังคงเป็นผู้นำระดับโลกในเรื่องนี้ นอกจากนี้เรายังมีแรงจูงใจทางธุรกิจที่แข็งแกร่งในการทำสิ่งนี้ เราเป็นแพลตฟอร์มการใช้งาน AI ที่ใหญ่ที่สุดในโลก ด้วย AI Overviews และ AI Mode รวมถึง Gemini ตอนนี้ผลิตภัณฑ์ทุกตัวของ Google รวมถึงแผนที่และ YouTube กำลังผสานรวม Gemini หรือเทคโนโลยีที่เกี่ยวข้องเข้าไป การดำเนินการนี้เกี่ยวข้องกับผู้ใช้หลายพันล้านคน และผลิตภัณฑ์กว่าสิบรายการที่มีผู้ใช้ระดับพันล้าน ซึ่งต้องมีความเร็วสูงมาก ประสิทธิภาพสูง ต้นทุนต่ำ และความล่าช้าต่ำมาก สิ่งนี้จึงให้แรงจูงใจอันยิ่งใหญ่แก่เราในการพัฒนาโมเดล Flash และ Flash-Lite ให้มีประสิทธิภาพสูงสุดเท่าที่จะเป็นไปได้ และฉันหวังว่าในที่สุดมันจะสามารถรองรับงานต่างๆ ของผู้ใช้ได้อย่างดีเยี่ยม

เกอร์รี แทน: ฉันอยากรู้ว่าโมเดลเล็กๆ เหล่านี้ฉลาดได้ถึงไหน การกลั่นกรองมีขีดจำกัดไหม? โมเดลขนาด 50B หรือ 400B สามารถฉลาดเท่ากับโมเดลชั้นนำที่ใหญ่ที่สุดในปัจจุบันได้ไหม?

เดมิส ฮัสซาบิส: ฉันไม่ได้รู้สึกว่าเราได้แตะขีดจำกัดทางทฤษฎีสารสนเทศแล้ว อย่างน้อยก็ยังไม่มีใครรู้ว่าเราได้แตะมันหรือยัง บางทีวันหนึ่งอาจเจอขีดจำกัดด้านความหนาแน่นของข้อมูล แต่ในขณะนี้สมมติฐานของเราคือ หลังจากเปิดตัวโมเดล Pro ระดับนำหน้าแล้ว ภายในหกเดือนถึงหนึ่งปี ความสามารถของมันจะถูกลดขนาดลงจนสามารถรันได้บนอุปกรณ์ขอบได้อย่างแทบจะสมบูรณ์แบบ คุณยังสามารถเห็นสิ่งนี้ได้ในโมเดล Gemma โดยโมเดล Gemma 4 ของเราแสดงประสิทธิภาพที่แข็งแกร่งมากเมื่อเทียบในขนาดเดียวกัน ซึ่งใช้เทคนิคการกลั่นกรองและการเพิ่มประสิทธิภาพของโมเดลขนาดเล็กจำนวนมาก ดังนั้นฉันจึงไม่เห็นขีดจำกัดทางทฤษฎีใดๆ เลย ฉันคิดว่าเรายังห่างจากขีดจำกัดนั้นไกลมาก

แกรี แทน: ตอนนี้มีปรากฏการณ์ที่แปลกมาก คือปริมาณงานที่วิศวกรสามารถทำได้ประมาณ 500 ถึง 1,000 เท่าของเมื่อหกเดือนก่อน บางคนในห้องนี้อาจกำลังทำงานเทียบเท่ากับวิศวกรของ Google ในยุคปี 2000 ถึง 1,000 เท่า สตีฟ เยกเกจ เคยพูดเรื่องนี้ไว้

เดมิส ฮัสซาบิส: ฉันรู้สึกตื่นเต้นมาก โมเดลขนาดเล็กมีการใช้งานมากมาย หนึ่งในนั้นคือต้นทุนต่ำและความเร็วสูงซึ่งก็ให้ประโยชน์เช่นกัน เมื่อเขียนโค้ดหรือทำภารกิจอื่นๆ คุณสามารถวนซ้ำได้เร็วขึ้น โดยเฉพาะเมื่อทำงานร่วมกับระบบ แม้ระบบรวดเร็วจะไม่ใช่เทคโนโลยีล่าสุด เช่น เพียงแค่ 90% ถึง 95% ของเทคโนโลยีล่าสุด แต่มันก็เพียงพอแล้ว และคุณจะได้ประโยชน์จากความเร็วในการวนซ้ำมากกว่าความสูญเสีย 10% นั้น

อีกทิศทางใหญ่คือการรันโมเดลเหล่านี้บนอุปกรณ์ขอบ ไม่ใช่แค่เพื่อประสิทธิภาพ แต่ยังเพื่อความเป็นส่วนตัวและความปลอดภัย ลองนึกถึงอุปกรณ์ต่างๆ ที่จัดการข้อมูลส่วนตัวอย่างมาก เช่น หุ่นยนต์ สำหรับหุ่นยนต์ในบ้านของคุณ คุณคงต้องการให้รันโมเดลที่มีประสิทธิภาพและทรงพลังบนอุปกรณ์ท้องถิ่น และเฉพาะในสถานการณ์เฉพาะเท่านั้นจึงจะมอบงานให้โมเดลขนาดใหญ่บนคลาวด์ ข้อมูลเสียงและวิดีโอจะถูกประมวลผลทั้งหมดบนอุปกรณ์ท้องถิ่น และข้อมูลจะไม่ถูกส่งออกไป ฉันสามารถจินตนาการได้ว่านี่จะเป็นสถานะสุดท้ายที่ยอดเยี่ยม

ความจำและการให้เหตุผล

เกอร์รี แทน: กลับมาที่บริบทและความจำ โมเดลในปัจจุบันเป็นแบบไม่มีสถานะ หากมีความสามารถในการเรียนรู้อย่างต่อเนื่อง ประสบการณ์ของนักพัฒนาจะเป็นอย่างไร? คุณจะนำทางโมเดลดังกล่าวอย่างไร?

เดมิส ฮัสซาบิส: คำถามนี้น่าสนใจมาก การขาดการเรียนรู้อย่างต่อเนื่องเป็นข้อจำกัดหลักที่ทำให้ตัวแทนปัจจุบันไม่สามารถ hoàn thànhงานทั้งหมดได้ ตัวแทนในปัจจุบันมีประโยชน์ในแต่ละขั้นตอนของงาน คุณสามารถเชื่อมต่อพวกมันเข้าด้วยกันเพื่อทำสิ่งที่เจ๋งๆ ได้ แต่พวกมันไม่สามารถปรับตัวให้เข้ากับสภาพแวดล้อมเฉพาะของคุณได้อย่างดี นี่คือเหตุผลที่พวกมันยังไม่สามารถ “ยิงแล้วลืม” ได้จริงๆ เพราะพวกมันต้องสามารถเรียนรู้บริบทเฉพาะของคุณได้ เพื่อให้บรรลุปัญญาทั่วไปอย่างสมบูรณ์ ปัญหานี้ต้องได้รับการแก้ไข

เกอร์รี แทน: ด้านการให้เหตุผลไปถึงไหนแล้ว? โมเดลตอนนี้มีสายการคิดที่แข็งแกร่ง แต่ยังคงทำผิดพลาดในสิ่งที่นักศึกษาปริญญาตรีที่ฉลาดจะไม่ทำ จำเป็นต้องปรับอะไรบ้าง? คุณคาดหวังความก้าวหน้าอะไรในด้านการให้เหตุผล?

เดมิส ฮัสซาบิส: ยังมีพื้นที่สำหรับนวัตกรรมจำนวนมากในแง่ของรูปแบบการคิด สิ่งที่เราทำอยู่ยังคงค่อนข้างหยาบและรุนแรงอยู่มาก มีหลายทิศทางที่สามารถปรับปรุงได้ เช่น การติดตามกระบวนการของโซ่ความคิด และแทรกแซงในระหว่างการคิด ผมมักรู้สึกว่า ไม่ว่าจะเป็นระบบของเราหรือระบบของคู่แข่ง ล้วนมีแนวโน้มที่จะคิดมากเกินไปและติดอยู่ในวัฏจักร

ฉันบางครั้งชอบใช้ Gemini เล่นหมากรุกเพื่อสังเกตการณ์ น่าสนใจที่โมเดลพื้นฐานที่นำหน้าทั้งหมดมีทักษะการเล่นหมากรุกค่อนข้างแย่ การดูกระบวนการคิดของพวกมันมีคุณค่า เพราะหมากรุกเป็นสาขาที่เข้าใจได้ดี ฉันจึงสามารถประเมินได้อย่างรวดเร็วว่ามันเดินผิดทางหรือไม่ และการให้เหตุผลของมันมีประสิทธิภาพหรือไม่ สิ่งที่เราเห็นคือ บางครั้งมันพิจารณาเดินหนึ่ง รู้ว่าเป็นเดินที่แย่ แต่ก็ไม่สามารถหาทางเลือกที่ดีกว่าได้ จึงวนกลับมาเดินเดิมที่แย่นั้นอีกครั้ง ระบบการให้เหตุผลที่แม่นยำไม่ควรเกิดสถานการณ์แบบนี้

ความแตกต่างที่ใหญ่หลวงนี้ยังคงมีอยู่ แต่การแก้ไขอาจต้องใช้การปรับเปลี่ยนเพียงหนึ่งหรือสองครั้ง นี่คือเหตุผลที่คุณจะเห็นสิ่งที่เรียกว่า “สติปัญญาที่ไม่สม่ำเสมอ” (jagged intelligence) ซึ่งสามารถแก้โจทย์ระดับเหรียญทอง IMO ได้ในด้านหนึ่ง แต่เมื่อตั้งคำถามในรูปแบบอื่นกลับทำผิดข้อผิดพลาดคณิตศาสตร์ระดับประถม ในด้านการสะท้อนคิดเกี่ยวกับกระบวนการคิดของตนเอง ดูเหมือนจะยังขาดบางอย่าง

ความสามารถที่แท้จริงของตัวแทน

เกอร์รี แทน: ตัวแทนเป็นหัวข้อใหญ่มาก มีบางคนบอกว่าเป็นการสร้างความตื่นเต้นเกินจริง ส่วนตัวฉันคิดว่าเพิ่งเริ่มต้นเท่านั้น การวิจัยภายใน DeepMind มีการประเมินความสามารถของตัวแทนอย่างไร และความแตกต่างจากโฆษณาภายนอกมีมากน้อยเพียงใด?

เดมิส ฮัสซาบิส: ฉันเห็นด้วยกับสิ่งที่คุณพูด เราเพิ่งเริ่มต้นเท่านั้น เพื่อให้ถึง AGI คุณต้องมีระบบที่สามารถทำงานแก้ปัญหาให้คุณได้อย่างอัตโนมัติ นี่เป็นสิ่งที่เรารู้มาโดยตลอด Agent คือทางนั้น และฉันคิดว่าเราเพิ่งเริ่มต้น ทุกคนกำลังค้นหาวิธีทำให้ Agent ทำงานร่วมกันได้ดีขึ้น เราได้ทำการทดลองส่วนตัวมากมาย และหลายคนในที่นี้ก็น่าจะเช่นกัน วิธีการผสาน Agent เข้ากับกระบวนการทำงาน ทำให้มันไม่ใช่แค่สิ่งเสริมแต่ง แต่เป็นการดำเนินการที่มีความสำคัญพื้นฐาน ขณะนี้เรายังอยู่ในระยะการทดลอง อาจเพิ่งพบสถานการณ์ที่มีคุณค่าอย่างแท้จริงในช่วงสองหรือสามเดือนที่ผ่านมา เทคโนโลยีก็เพิ่งถึงจุดที่ไม่ใช่แค่การแสดงตัวอย่างเล่นๆ อีกต่อไป แต่เริ่มสร้างคุณค่าจริงต่อเวลาและประสิทธิภาพของคุณ

ฉันมักเห็นผู้คนเปิดตัวเอเจนต์หลายสิบตัวให้ทำงานต่อเนื่องเป็นเวลาหลายสิบชั่วโมง แต่ฉันยังไม่แน่ใจว่าผลลัพธ์ที่ได้จะคุ้มค่ากับการลงทุนนี้หรือไม่

เรายังไม่เคยเห็นใครใช้ vibe coding สร้างเกม 3A ที่ขึ้นอันดับหนึ่งในร้านแอปพลิเคชันเลย ตัวฉันเองก็เคยเขียนมาแล้ว และหลายคนในห้องนี้ก็เคยทำเดโม่เล็กๆ ที่ดีมาแล้ว ตอนนี้ฉันสามารถสร้างต้นแบบของเกม Theme Park ได้ในเวลาเพียงครึ่งชั่วโมง ขณะที่เมื่อตอนอายุ 17 ปี ฉันต้องใช้เวลาหกเดือน ฉันรู้สึกว่าถ้าคุณใช้เวลาทั้งฤดูร้อนในการทำ มันจะสามารถสร้างสิ่งที่น่าอัศจรรย์ได้จริงๆ แต่มันยังคงต้องการความชำนาญและจิตวิญญาณของมนุษย์ ความรู้สึกชั้นสูง คุณต้องแน่ใจว่าคุณนำสิ่งเหล่านี้ไปใส่ในทุกผลิตภัณฑ์ที่คุณสร้างขึ้น จริงๆ แล้วตอนนี้ยังไม่มีเด็กคนไหนสร้างเกมที่ขายได้หนึ่งล้านชุดเลย ซึ่งตามหลักการแล้วด้วยเครื่องมือที่มีอยู่ในปัจจุบัน มันควรจะเป็นไปได้ ดังนั้นจึงยังขาดบางอย่าง อาจเกี่ยวข้องกับกระบวนการหรือเครื่องมือ ฉันคาดว่าในอีก 6 ถึง 12 เดือนข้างหน้า เราจะเห็นผลงานเช่นนั้น

แกรี แทน: ระดับใดที่จะเป็นระบบอัตโนมัติเต็มรูปแบบ? ฉันคิดว่าจะไม่เริ่มต้นด้วยระบบอัตโนมัติเต็มรูปแบบทันที ทางที่เป็นไปได้มากกว่าคือผู้เข้าร่วมในที่นี้จะเพิ่มประสิทธิภาพได้ 1,000 เท่าก่อน จากนั้นจะมีคนใช้เครื่องมือเหล่านี้สร้างแอปพลิเคชันหรือเกมที่ขายดี หลังจากนั้นจึงจะมีขั้นตอนอื่นๆ ถูกอัตโนมัติเพิ่มเติม

เดมิส ฮัสซาบิส: ใช่ นี่คือสิ่งที่คุณควรเห็นก่อน

แกรี แทน: อีกส่วนหนึ่งเป็นเพราะมีบางคนที่กำลังทำอยู่จริง แต่ไม่ต้องการเปิดเผยว่าเอเจนต์ช่วยได้มากแค่ไหน

เดมิส ฮัสซาบิส: อาจเป็นเช่นนั้น แต่ฉันอยากพูดถึงเรื่องความคิดสร้างสรรค์ ฉันมักยกตัวอย่าง AlphaGo ซึ่งทุกคนรู้จักการเดินที่ 37 ในเกมที่สอง สำหรับฉัน ฉันรอคอยช่วงเวลานั้นมาโดยตลอด และเมื่อมันเกิดขึ้น ฉันจึงเริ่มโครงการวิทยาศาสตร์ต่างๆ เช่น AlphaFold เราเริ่มทำ AlphaFold วันถัดไปหลังกลับจากเซี่ยงไฮ้ เมื่อสิบปีก่อน ครั้งนี้ฉันไปเกาหลีเพื่อเฉลิมฉลองครบรอบ 10 ปีของ AlphaGo

แต่การแค่ก้าวออกมาจาก Move 37 ยังไม่เพียงพอ มันเยี่ยมและมีประโยชน์ แต่ระบบนี้สามารถสร้างเกมโกะขึ้นมาเองได้ไหม? ถ้าคุณให้ระบบอธิบายระดับสูง เช่น “เกมที่เรียนรู้กฎภายในห้านาที แต่ยากจนแทบไม่มีวันเชี่ยวชาญแม้ใช้ชีวิตทั้งหมด เกมที่มีความงดงามทางศิลปะ และเล่นจบได้ภายในช่วงบ่ายหนึ่ง” แล้วระบบตอบกลับมาว่า “โกะ” ระบบในวันนี้ยังทำไม่ได้ คำถามคือทำไม?

แกรี แทน: อาจมีใครบางคนในห้องนี้ที่ทำได้

เดมิส ฮัสซาบิส: หากมีใครสักคนทำสำเร็จ คำตอบก็ไม่ได้อยู่ที่ระบบขาดอะไร แต่เป็นที่วิธีการที่เราใช้ระบบต่างหาก นี่อาจเป็นคำตอบที่ถูกต้องก็เป็นได้ บางทีระบบในวันนี้ก็มีศักยภาพนี้อยู่แล้ว เพียงแต่ต้องการผู้สร้างที่มีพรสวรรค์เพียงพอในการขับเคลื่อนมัน ให้จิตวิญญาณกับโครงการนั้น โดยผู้คนคนนั้นต้องผสานกับเครื่องมืออย่างลึกซึ้ง แทบจะกลายเป็นหนึ่งเดียวกับเครื่องมือ หากคุณใช้เวลาทั้งวันทั้งคืนกับเครื่องมือเหล่านี้และมีความคิดสร้างสรรค์ในระดับลึก คุณอาจสามารถสร้างสิ่งที่เกินจินตนาการได้

โอเพนซอร์สและโมเดลหลายรูปแบบ

เกอร์รี แทน: เปลี่ยนหัวข้อมาพูดถึงโอเพนซอร์สกันดีกว่า การเปิดตัว Gemma ล่าสุดทำให้โมเดลที่ทรงพลังมากสามารถรันได้บนอุปกรณ์ส่วนตัว คุณคิดอย่างไร? AI จะกลายเป็นสิ่งที่ผู้ใช้สามารถควบคุมได้เอง แทนที่จะอยู่แค่บนคลาวด์หรือไม่? สิ่งนี้จะเปลี่ยนแปลงผู้ที่สามารถใช้โมเดลเหล่านี้ในการสร้างผลิตภัณฑ์ได้หรือไม่?

เดมิส ฮัสซาบิส: เราเป็นผู้สนับสนุนอย่างแข็งขันต่อการเปิดแหล่งที่มาและการวิจัยแบบเปิด เราได้เปิดให้ใช้งาน AlphaFold ทั้งหมดโดยไม่คิดค่าใช้จ่าย งานวิจัยทางวิทยาศาสตร์ของเราจนถึงปัจจุบันยังคงตีพิมพ์ในวารสารชั้นนำ ในเรื่องของ Gemma เราต้องการสร้างโมเดลชั้นนำของโลกในขนาดที่เทียบเท่ากัน ขณะนี้ Gemma มีจำนวนการดาวน์โหลดประมาณ 40 ล้านครั้ง แม้เพิ่งเปิดตัวไปเพียงสองสัปดาห์ครึ่ง

ฉันยังเชื่อว่าการมีสแต็กเทคโนโลยีตะวันตกในพื้นที่โอเพ่นซอร์สเป็นสิ่งสำคัญ โมเดลโอเพ่นซอร์สของจีนยอดเยี่ยมและนำหน้าในปัจจุบัน แต่เรามองว่า Gemma มีความสามารถในการแข่งขันสูงมากเมื่อเทียบในขนาดเดียวกัน

สำหรับเรา ยังมีปัญหาด้านทรัพยากร เพราะไม่มีใครมีพลังการประมวลผลเหลือเพียงพอที่จะสร้างแบบจำลองขนาดเต็มสองตัวที่ทันสมัยที่สุด ดังนั้น แนวทางการตัดสินใจในปัจจุบันของเราคือ: ใช้แบบจำลองขอบสำหรับ Android แว่นตา หุ่นยนต์ ฯลฯ โดยควรทำให้เป็นแบบจำลองเปิด เนื่องจากเมื่อถูกนำไปใช้งานบนอุปกรณ์แล้ว ตัวแบบจำลองจะถูกเปิดเผยอยู่แล้ว ดังนั้นจึงควรเปิดเผยอย่างสมบูรณ์ตั้งแต่แรก เราได้รวมกลยุทธ์การเปิดเผยในระดับนาโนเมตร ซึ่งมีเหตุผลเชิงกลยุทธ์เช่นกัน

แกรี แทน: ก่อนขึ้นเวที ผมได้แสดงระบบปฏิบัติการ AI ที่ผมพัฒนาขึ้น ผมสามารถสื่อสารกับ Gemini ผ่านเสียงได้โดยตรง แม้ผมจะตื่นเต้นมากในการแสดงให้คุณดู แต่สุดท้ายก็ทำงานได้สำเร็จ Gemini ถูกออกแบบมาเป็นแบบหลายรูปแบบตั้งแต่เริ่มต้น ผมเคยใช้งานโมเดลหลายตัว แต่ยังไม่มีโมเดลใดที่สามารถเทียบเท่ากับ Gemini ในแง่ของความสามารถในการสื่อสารโดยตรงผ่านเสียง พร้อมการเรียกใช้งานเครื่องมือและการเข้าใจบริบทอย่างลึกซึ้ง

เดมิส ฮัสซาบิส: ใช่ ข้อได้เปรียบหนึ่งของซีรีส์ Gemini ที่ยังไม่ได้รับการยอมรับอย่างเต็มที่คือเราได้สร้างมันตั้งแต่เริ่มต้นด้วยการรองรับแบบหลายโมดัล ซึ่งทำให้การเริ่มต้นยากกว่าการพัฒนาเฉพาะข้อความ แต่เราเชื่อว่าในระยะยาวจะได้รับผลประโยชน์ และตอนนี้ก็เริ่มเห็นผลแล้ว เช่น ในด้านโมเดลโลก เราได้สร้าง Genie (โมเดลสภาพแวดล้อมเชิงสร้างสรรค์แบบโต้ตอบที่พัฒนาโดย DeepMind) บนพื้นฐานของ Gemini เช่นเดียวกันในด้านหุ่นยนต์ Gemini Robotics จะถูกสร้างขึ้นบนโมเดลพื้นฐานแบบหลายโมดัล ข้อได้เปรียบของเราในด้านหลายโมดัลจะกลายเป็นกำแพงป้องกันการแข่งขัน เรา cũngใช้ Gemini เพิ่มขึ้นเรื่อยๆ ใน Waymo (บริษัทรถยนต์ขับเคลื่อนอัตโนมัติภายใต้ Alphabet)

จินตนาการถึงผู้ช่วยดิจิทัลที่ติดตามคุณเข้าสู่โลกแห่งความเป็นจริง อาจอยู่บนโทรศัพท์มือถือหรือแว่นตาของคุณ ซึ่งต้องสามารถเข้าใจโลกทางกายภาพและสภาพแวดล้อมรอบตัวคุณ ระบบของเราแข็งแกร่งมากในด้านนี้ เราจะยังคงลงทุนต่อไปในทิศทางนี้ และฉันเชื่อว่าข้อได้เปรียบของเราในประเด็นเช่นนี้มีมาก

เกอร์รี แทน: ต้นทุนการให้เหตุผลกำลังลดลงอย่างรวดเร็ว เมื่อการให้เหตุผลฟรีแทบจะไม่มีค่าใช้จ่าย สิ่งใดที่จะเป็นไปได้? ทิศทางการปรับปรุงของทีมคุณจะเปลี่ยนไปเพราะสิ่งนี้หรือไม่?

เดมิส ฮัสซาบิส: ฉันไม่แน่ใจว่าการให้บริการการให้เหตุผลจะฟรีจริงๆ เพราะมีพาราด็อกซ์ของเจวอนส์อยู่ตรงนั้น ฉันคิดว่าทุกคนในที่สุดจะใช้ทรัพยากรการประมวลผลที่ได้รับทั้งหมด คุณสามารถจินตนาการถึงกลุ่มตัวแทนนับล้านที่ทำงานร่วมกัน หรือกลุ่มตัวแทนขนาดเล็กที่คิดไปในหลายทิศทางพร้อมกันแล้วรวมผลลัพธ์ เราทุกคนกำลังทดลองในทิศทางเหล่านี้ และทั้งหมดนี้จะใช้ทรัพยากรการให้เหตุผลที่มีอยู่

ในด้านพลังงาน หากเราสามารถแก้ไขปัญหาต่างๆ เช่น การฟิวชันนิวเคลียร์ที่ควบคุมได้ ซูเปอร์คอนดักเตอร์ที่อุณหภูมิห้อง และแบตเตอรี่ที่มีประสิทธิภาพสูงสุด ฉันเชื่อว่าเราจะทำได้ผ่านวิทยาศาสตร์วัสดุ ค่าใช้จ่ายด้านพลังงานจะเข้าใกล้ศูนย์ แต่กระบวนการผลิตทางกายภาพของชิปยังคงมีข้อจำกัด และอย่างน้อยในอีกหลายทศวรรษข้างหน้าก็ยังเป็นเช่นนั้น ดังนั้น การประมวลผลแบบอินเฟอร์เรนซ์ยังคงมีข้อจำกัดด้านควอตา และจำเป็นต้องใช้อย่างมีประสิทธิภาพ

การค้นพบทางวิทยาศาสตร์ครั้งต่อไป

เกอร์รี ตัน: ดีที่โมเดลขนาดเล็กกำลังฉลาดขึ้นเรื่อยๆ มีผู้ก่อตั้งจำนวนมากในงานนี้ที่ทำงานด้านชีววิทยาและชีวเทคโนโลยี AlphaFold 3 ได้ก้าวพ้นโปรตีนไปสู่โมเลกุลชีวภาพที่หลากหลายกว่า เราอยู่ห่างจากการจำลองระบบเซลล์ทั้งหมดแค่ไหน? นี่เป็นปัญหาที่มีระดับความยากต่างออกไปอย่างสิ้นเชิงไหม?

เดมิส ฮัสซาบิส: Isomorphic Labs มีความคืบหน้าอย่างมาก AlphaFold เป็นเพียงขั้นตอนหนึ่งในกระบวนการค้นพบยา เรากำลังทำการวิจัยทางชีวเคมีที่เกี่ยวข้อง เช่น การออกแบบสารประกอบที่มีคุณสมบัติที่ถูกต้อง และจะมีการเปิดเผยข้อมูลสำคัญในเร็วๆ นี้

เป้าหมายสุดท้ายของเราคือการสร้างเซลล์เสมือนที่สมบูรณ์แบบ ซึ่งเป็นตัวจำลองเซลล์ที่ทำงานได้เต็มรูปแบบและสามารถรับการรบกวนได้ โดยผลลัพธ์ที่ได้ใกล้เคียงกับผลการทดลองอย่างเพียงพอและมีประโยชน์ในทางปฏิบัติ คุณสามารถข้ามขั้นตอนการค้นหาจำนวนมาก สร้างข้อมูลสังเคราะห์จำนวนมากเพื่อฝึกโมเดลอื่นๆ ให้ทำนายพฤติกรรมของเซลล์จริง

ฉันประเมินว่ายังอีกประมาณสิบปีจึงจะถึงเซลล์เสมือนที่สมบูรณ์ เราที่ฝ่ายวิทยาศาสตร์ของ DeepMind กำลังเริ่มจากนิวเคลียสของเซลล์เสมือน เนื่องจากนิวเคลียสมีความเป็นอิสระค่อนข้างสูง ประเด็นสำคัญของปัญหานี้คือ สามารถตัดชิ้นส่วนที่มีความซับซ้อนเหมาะสมออกมาได้หรือไม่ ซึ่งมีความเป็นอิสระเพียงพอ คุณสามารถประมาณค่าอินพุตและเอาต์พุตของมันได้อย่างสมเหตุสมผล และมุ่งเน้นไปที่ระบบย่อยนี้ นิวเคลียสเหมาะสมกับมุมมองนี้

ปัญหาอีกข้อคือข้อมูลไม่เพียงพอ ผมได้พูดคุยกับนักวิทยาศาสตร์ชั้นนำที่ทำงานด้านกล้องอิเล็กตรอนและเทคโนโลยีการถ่ายภาพอื่นๆ หากสามารถถ่ายภาพเซลล์ที่มีชีวิตได้โดยไม่ต้องฆ่าเซลล์ จะเป็นสิ่งที่เปลี่ยนแปลงทุกอย่าง เพราะจะสามารถแปลงปัญหานี้ให้เป็นปัญหาด้านภาพถ่าย ซึ่งเราทราบวิธีแก้ไขอยู่แล้ว แต่ตามที่ผมเข้าใจ ขณะนี้ยังไม่มีเทคโนโลยีใดที่สามารถถ่ายภาพเซลล์ที่มีชีวิตและเคลื่อนไหวได้ในความละเอียดระดับนาโนโดยไม่ทำลายมัน คุณสามารถถ่ายภาพนิ่งที่ความละเอียดระดับนั้นได้ ซึ่งตอนนี้ก็ละเอียดมากแล้วและน่าตื่นเต้น แต่ยังไม่เพียงพอที่จะแปลงมันให้เป็นปัญหาด้านภาพถ่ายโดยตรง

ดังนั้นจึงมีสองทางเลือก ทางแรกคือแนวทางที่ขับเคลื่อนด้วยฮาร์ดแวร์และข้อมูล; อีกทางคือการสร้างตัวจำลองที่สามารถเรียนรู้ได้ดีขึ้นเพื่อจำลองระบบพลศาสตร์เหล่านี้

แกรี แทน: คุณไม่ได้ดูแค่ชีววิทยา วิทยาศาสตร์วัสดุ การค้นพบยา การสร้างแบบจำลองสภาพภูมิอากาศ และคณิตศาสตร์ หากต้องจัดอันดับ วิทยาศาสตร์สาขาใดจะถูกเปลี่ยนแปลงมากที่สุดในอีกห้าปีข้างหน้า?

เดมิส ฮัสซาบิส: ทุกสาขาทำให้ตื่นเต้น นี่คือเหตุผลที่ทำให้สิ่งนี้ยังคงเป็นความหลงใหลอันยิ่งใหญ่ที่สุดของฉัน และเป็นเหตุผลที่ฉันทำงานด้าน AI มานานกว่า 30 ปี ฉันเชื่อมาโดยตลอดว่า AI จะเป็นเครื่องมือสุดท้ายของวิทยาศาสตร์ สำหรับการผลักดันความเข้าใจทางวิทยาศาสตร์ การค้นพบทางวิทยาศาสตร์ แพทยศาสตร์ และความเข้าใจของเราต่อจักรวาล

วิธีการที่เราอธิบายภารกิจในตอนแรกคือสองขั้นตอน ขั้นแรกคือแก้ไขปัญหาด้านปัญญา นั่นคือการสร้าง AGI; ขั้นที่สองคือใช้มันแก้ไขปัญหาอื่นๆ ทั้งหมด ต่อมาเราต้องปรับคำพูด เพราะมีคนถามว่า “คุณหมายความว่าแก้ไขปัญหาทั้งหมดจริงๆ หรือ?” ใช่ เราหมายความว่าเช่นนั้น ตอนนี้ผู้คนเริ่มเข้าใจว่ามันหมายถึงอะไรแล้ว โดยเฉพาะอย่างยิ่ง ฉันหมายถึงการแก้ไขปัญหาทางวิทยาศาสตร์ที่ฉันเรียกว่า “ปัญหาโหนดราก” ซึ่งเป็นสาขาที่เมื่อผ่านการพัฒนาแล้ว จะเปิดทางสู่การค้นพบใหม่ๆ มากมาย AlphaFold เป็นต้นแบบของสิ่งที่เราต้องการทำ ผู้วิจัยกว่าสามล้านคนทั่วโลก แทบทุกคนที่ศึกษาด้านชีววิทยาตอนนี้ใช้ AlphaFold ฉันได้ยินจากเพื่อนที่เป็นผู้บริหารบริษัทยาบางรายว่า ยาเกือบทุกชนิดที่จะถูกค้นพบในอนาคตจะต้องใช้ AlphaFold ในขั้นตอนใดขั้นตอนหนึ่งของกระบวนการค้นพบยา เราภูมิใจกับสิ่งนี้ และนี่คือผลกระทบแบบที่เราต้องการให้ AI สร้างขึ้น แต่ฉันรู้สึกว่านี่แค่จุดเริ่มต้นเท่านั้น

ฉันนึกไม่ออกว่ามีสาขาใดทางวิทยาศาสตร์หรือวิศวกรรมที่ AI ไม่สามารถช่วยได้ สาขาที่คุณกล่าวถึงเหล่านั้น ฉันคิดว่าอยู่ในช่วง “ช่วงเวลาของ AlphaFold 1” ผลลัพธ์มีศักยภาพสูง แต่ยังไม่ได้แก้ปัญหาใหญ่ของสาขาเหล่านั้นอย่างแท้จริง ในอีกสองปีข้างหน้า เราจะมีความก้าวหน้ามากมายในทุกสาขาเหล่านี้ ตั้งแต่วิทยาศาสตร์วัสดุไปจนถึงคณิตศาสตร์

เกอรี่ แทน: รู้สึกเหมือนพรอมีธีอุส ที่มอบความสามารถใหม่ให้กับมนุษย์

เดมิส ฮัสซาบิส: ใช่แล้ว แน่นอนว่าเช่นเดียวกับข้อคิดจากเรื่องราวของโพรเมธีอุส เราต้องระมัดระวังเกี่ยวกับการใช้ความสามารถนี้อย่างไร ใช้ที่ไหน และความเสี่ยงจากการใช้เครื่องมือชุดเดียวกันในทางที่ผิด

ประสบการณ์ที่ประสบความสำเร็จ

แกรี แทน: มีหลายคนในห้องนี้ที่กำลังพยายามก่อตั้งบริษัทที่นำ AI ไปใช้ในวิทยาศาสตร์ ในมุมมองของคุณ ความแตกต่างระหว่างบริษัทสตาร์ทอัพที่ขับเคลื่อนขอบเขตของความก้าวหน้าจริงๆ กับบริษัทที่แค่สวมชั้น API ลงบนโมเดลพื้นฐาน แล้วอ้างว่าเป็น “AI for Science” คืออะไร?

เดมิส ฮัสซาบิส: ผมกำลังคิดว่าถ้าวันนี้ผมนั่งอยู่ในตำแหน่งของคุณ มองโครงการที่ Y Combinator ผมจะทำอย่างไร สิ่งหนึ่งคือคุณต้องคาดการณ์ทิศทางของเทคโนโลยี AI ซึ่งมันยากอยู่แล้ว แต่ผมเชื่อว่าการผสานทิศทางของ AI เข้ากับอีกหนึ่งสาขาเทคโนโลยีลึก มีโอกาสอันยิ่งใหญ่ จุดตัดนี้ ไม่ว่าจะเป็นวัสดุ แพทยศาสตร์ หรือสาขาทางวิทยาศาสตร์ที่ยากจริงๆ อื่นๆ โดยเฉพาะอย่างยิ่งที่เกี่ยวข้องกับโลกของอะตอม จะไม่มีทางลัดในอนาคตอันใกล้นี้ สาขาเหล่านี้จะไม่ถูกทับถมเพียงเพราะอัปเดตโมเดลพื้นฐานครั้งต่อไป แต่ถ้าคุณกำลังมองหาทิศทางที่มีความทนทานสูง นี่คือสิ่งที่ผมจะแนะนำ

ฉันชอบเทคโนโลยีลึกมาโดยตลอด สิ่งที่ยั่งยืนและมีคุณค่าจริงๆ ไม่มีอะไรที่ง่ายเลย ฉันมักจะถูกดึงดูดโดยเทคโนโลยีลึก เมื่อเราเริ่มต้นในปี 2010 AI ก็เป็นเทคโนโลยีลึก—นักลงทุนบอกฉันว่า “เราทราบดีว่าสิ่งนี้ไม่เวิร์ก” และวงการวิชาการก็มองว่ามันเป็นทิศทางเล็กๆ ที่เคยลองในยุค 90 แล้วล้มเหลว แต่ถ้าคุณมีความเชื่อมั่นในแนวคิดของคุณ—ทำไมครั้งนี้ถึงแตกต่าง คุณมีประสบการณ์หรือทักษะเฉพาะตัวอะไรบ้าง—ในอุดมคติ คุณควรเป็นผู้เชี่ยวชาญทั้งในด้านการเรียนรู้ของเครื่องและการประยุกต์ใช้งาน หรือสามารถสร้างทีมผู้ก่อตั้งที่มีความเชี่ยวชาญเหล่านี้ได้—นั่นคือโอกาสในการสร้างผลกระทบและคุณค่าอันยิ่งใหญ่

เกอร์รี แทน: ข้อมูลนี้สำคัญมาก สิ่งหนึ่งเมื่อทำสำเร็จแล้วดูเหมือนเป็นเรื่องปกติ แต่ก่อนที่จะทำสำเร็จ ทุกคนต่างคัดค้านคุณ

เดมิส ฮัสซาบิส: แน่นอน คุณต้องทำสิ่งที่คุณมีความหลงใหลอย่างแท้จริง ในกรณีของฉัน ไม่ว่าจะเกิดอะไรขึ้น ฉันจะยังคงทำ AI อยู่ ฉันตัดสินใจตั้งแต่อายุยังน้อยว่านี่คือสิ่งที่ฉันคิดว่ามีผลกระทบมากที่สุด และผลลัพธ์ก็พิสูจน์แล้วว่าถูกต้อง แต่ก็อาจไม่ใช่ก็ได้ อาจเราเร็วเกินไปถึง 50 ปี และมันยังเป็นสิ่งที่ฉันคิดว่าน่าสนใจที่สุดอีกด้วย แม้ว่าวันนี้เราจะยังคงอยู่ในโรงรถเล็กๆ และยังไม่ได้สร้าง AI ขึ้นมา ฉันก็จะหาวิธีใดๆ ก็ตามเพื่อเดินหน้าต่อไป อาจกลับไปทำงานในวงการวิชาการ แต่ฉันจะหาทางใดทางหนึ่งเพื่อทำมันต่อไป

แกรี แทน: AlphaFold เป็นตัวอย่างของคุณที่ติดตามทิศทางหนึ่งแล้วเดิมพันถูกต้อง สิ่งใดที่ทำให้สาขาทางวิทยาศาสตร์บางแห่งเหมาะสมสำหรับการเกิดการก้าวหน้าแบบ AlphaFold? มีกฎเกณฑ์ใดบ้าง เช่น ฟังก์ชันเป้าหมายบางอย่าง?

เดมิส ฮัสซาบิส: ฉันควรหาเวลาเขียนเรื่องนี้ลงให้ชัดเจน ประสบการณ์ที่ฉันเรียนรู้จากโครงการ Alpha ทั้งหมด เช่น AlphaGo และ AlphaFold คือ เทคโนโลยีที่เรามีอยู่ตอนนี้จะทำงานได้ดีที่สุดเมื่อเป็นไปตามเงื่อนไขต่อไปนี้: หนึ่ง ปัญหามีพื้นที่การค้นหาแบบรวมกันขนาดใหญ่มาก ยิ่งใหญ่ยิ่งดี จนไม่มีวิธีการแบบแรงดิบหรืออัลกอริธึมพิเศษใดๆ สามารถแก้ไขได้ พื้นที่การเดินในเกมโกะและพื้นที่การจัดเรียงของโปรตีนมีขนาดใหญ่กว่าจำนวนอะตอมในจักรวาลมาก สอง คุณสามารถนิยามฟังก์ชันเป้าหมายได้อย่างชัดเจน เช่น การลดพลังงานอิสระของโปรตีน หรือการชนะในเกมโกะ ซึ่งระบบสามารถดำเนินการขึ้นตามกราเดียนต์ได้ สาม มีข้อมูลเพียงพอ หรือมีตัวจำลองที่สามารถสร้างข้อมูลสังเคราะห์จำนวนมากภายในการแจกแจง

หากเงื่อนไขสามข้อนี้เป็นจริง วิธีการในวันนี้ก็สามารถพาคุณไปได้ไกลมาก เพื่อค้นหาเข็มในกองฟางที่คุณต้องการ การค้นพบยาใหม่ก็ใช้ตรรกะเดียวกัน: มีสารประกอบบางอย่างที่สามารถรักษาโรคนี้ได้โดยไม่มีผลข้างเคียง ตราบใดที่กฎทางฟิสิกส์อนุญาตให้มันมีอยู่ ปัญหาเดียวคือจะหาวิธีค้นพบมันอย่างมีประสิทธิภาพและเป็นไปได้อย่างไร ผมเชื่อว่า AlphaFold ได้พิสูจน์เป็นครั้งแรกว่าระบบประเภทนี้มีความสามารถในการค้นหาเข็มดังกล่าวในพื้นที่การค้นหาที่มหาศาล

แกรี แทน: ฉันอยากก้าวขึ้นไปอีกระดับ เราพูดถึงมนุษย์ที่ใช้วิธีเหล่านี้สร้าง AlphaFold แต่ยังมีระดับที่สูงกว่านั้นอีก คือมนุษย์ใช้ AI เพื่อสำรวจพื้นที่สมมติฐานที่เป็นไปได้ เราอยู่ห่างจากระบบ AI ที่สามารถทำการวิเคราะห์ทางวิทยาศาสตร์อย่างแท้จริง (ไม่ใช่แค่การจับรูปแบบในข้อมูล) เพียงใด?

เดมิส ฮัสซาบิส: ฉันรู้สึกว่าใกล้เข้ามาแล้ว เรากำลังพัฒนาระบบทั่วไปประเภทนี้ เรามีระบบชื่อ AI co-scientist และอัลกอริทึมอย่าง AlphaEvolve ที่สามารถทำสิ่งที่ล้ำกว่า Gemini พื้นฐานได้ ห้องปฏิบัติการชั้นนำทั้งหมดกำลังสำรวจแนวทางนี้

แต่จนถึงตอนนี้ ผมยังไม่ได้เห็นการค้นพบทางวิทยาศาสตร์ที่แท้จริงและสำคัญใดๆ ที่ระบบทั้งหลายนี้สร้างขึ้น ผมรู้สึกว่ามันกำลังจะเกิดขึ้นแล้ว มันอาจเกี่ยวข้องกับความคิดสร้างสรรค์ที่เราพูดถึงก่อนหน้านี้ ซึ่งคือการก้าวข้ามขอบเขตที่รู้จักไปอย่างแท้จริง เมื่อถึงระดับนั้น มันจะไม่ใช่การจับคู่รูปแบบอีกต่อไป เพราะไม่มีรูปแบบใดให้จับคู่ และไม่ใช่เพียงการคาดการณ์ต่อจากข้อมูลเดิม แต่เป็นการให้เหตุผลแบบเปรียบเทียบ (analogical reasoning) ซึ่งผมคิดว่าระบบทั้งหลายยังไม่มีอยู่ หรือเราอาจยังไม่ได้ใช้งานพวกมันในวิธีที่ถูกต้อง

ในวงการวิทยาศาสตร์ ฉันมักพูดถึงมาตรฐานหนึ่งว่า มันสามารถเสนอสมมติฐานที่น่าสนใจอย่างแท้จริงได้หรือไม่ ไม่ใช่แค่ยืนยันสมมติฐานที่มีอยู่แล้ว เพราะการยืนยันสมมติฐานก็อาจเป็นเรื่องใหญ่โตได้เช่นกัน เช่น การพิสูจน์สมมติฐานรีมันน์หรือแก้ปัญหาหนึ่งในปัญหารางวัลพันปี แต่บางทีเราอาจเหลือเวลาอีกเพียงไม่กี่ปีก็ถึงจุดนั้น

แต่ที่ยากกว่านั้นคือ สามารถเสนอชุดคำถามใหม่ของรางวัลพันปีได้หรือไม่ ซึ่งนักคณิตศาสตร์ชั้นนำถือว่าลึกซึ้งและคุ้มค่าที่จะใช้ชีวิตทั้งชีวิตศึกษา ผมคิดว่ามันยากขึ้นอีกหนึ่งระดับ และเรายังไม่รู้ว่าจะทำอย่างไรในตอนนี้ แต่ผมไม่เชื่อว่านี่เป็นเวทมนตร์ ผมเชื่อว่าระบบทั้งหมดเหล่านี้จะสามารถทำได้ในที่สุด อาจยังขาดอีกหนึ่งหรือสองสิ่ง

วิธีที่เราสามารถใช้ทดสอบได้คือ ฉันบางครั้งเรียกมันว่า “การทดสอบไอน์สไตน์” นั่นคือ คุณสามารถฝึกระบบด้วยความรู้ในปี 1901 แล้วให้มันสรุปผลลัพธ์ที่ไอน์สไตน์ค้นพบในปี 1905 ได้เองหรือไม่ รวมถึงทฤษฎีสัมพัทธภาพพิเศษและบทความอื่นๆ ของเขาในปีนั้น ฉันคิดว่าเราควรลองทดสอบนี้จริงๆ ทำซ้ำๆ ดูว่าเมื่อไหร่เราจะทำได้ เมื่อทำได้แล้ว ระบบเหล่านี้ก็จะใกล้เคียงกับการคิดค้นสิ่งใหม่ๆ อย่างแท้จริง

คำแนะนำสำหรับผู้ประกอบการ

เกอร์รี แทน: คำถามสุดท้าย มีผู้เข้าร่วมหลายคนที่มีพื้นฐานทางเทคนิคลึกซึ้งและต้องการสร้างสิ่งที่มีขนาดใกล้เคียงกับคุณ ซึ่งเป็นหนึ่งในองค์กรวิจัย AI ที่ใหญ่ที่สุดของโลก คุณได้เดินทางมาจากแนวหน้าของการวิจัย AGI มีสิ่งใดสิ่งหนึ่งที่คุณรู้ในตอนนี้ แต่หวังว่าคุณจะรู้ตั้งแต่อายุ 25 ปี?

เดมิส ฮัสซาบิส: เราแท้จริงได้พูดถึงบางส่วนแล้ว คุณจะพบว่าปัญหาที่ยากและปัญหาที่ง่ายมีระดับความยากใกล้เคียงกัน แค่ความยากนั้นแตกต่างกันไป สิ่งต่างๆ มีความยากของตัวเอง แต่ชีวิตสั้นมาก และพลังงานมีจำกัด ดังนั้น不如 ให้พลังชีวิตของคุณทุ่มเทไปกับสิ่งที่ถ้าคุณไม่ทำ ก็จะไม่มีใครทำเลย ใช้มาตรฐานนี้ในการเลือก

อีกจุดหนึ่ง ฉันคิดว่าในอีกไม่กี่ปีข้างหน้า การรวมกันข้ามสาขาจะแพร่หลายมากขึ้น และ AI จะทำให้การข้ามสาขาเป็นเรื่องง่ายขึ้น

จุดสุดท้ายขึ้นอยู่กับเส้นเวลา AGI ของคุณ ของฉันอยู่ที่ประมาณปี 2030 หากคุณเริ่มโครงการด้านเทคโนโลยีลึกวันนี้ มักหมายถึงการเดินทางยาวนานสิบปี คุณจึงต้องรวมการปรากฏตัวของ AGI ระหว่างทางไว้ในแผนการของคุณ นั่นหมายความว่าอย่างไร? ไม่จำเป็นต้องเป็นเรื่องแย่ แต่คุณต้องพิจารณาไว้ด้วย โครงการของคุณสามารถใช้ประโยชน์จาก AGI ได้อย่างไร? ระบบ AGI จะมีปฏิสัมพันธ์กับโครงการของคุณอย่างไร?

กลับมาที่หัวข้อที่เราคุยก่อนหน้านี้เกี่ยวกับความสัมพันธ์ระหว่าง AlphaFold และระบบ AI ทั่วไป ฉันสามารถจินตนาการสถานการณ์หนึ่งได้ว่า ระบบ AI ทั่วไปอย่าง Gemini, Claude หรือระบบอื่นๆ ที่คล้ายกัน จะใช้ระบบเฉพาะทางอย่าง AlphaFold เป็นเครื่องมือเรียกใช้งาน ฉันไม่เชื่อว่าเราจะบีบอัดทุกอย่างเข้าไปใน “สมอง” เดียวขนาดใหญ่เพียงหนึ่งเดียว เพราะถ้าเราใส่ข้อมูลโปรตีนทั้งหมดเข้าไปใน Gemini มันก็ไม่มีความหมาย เพราะ Gemini ไม่จำเป็นต้องพับโปรตีน กลับมาที่ประเด็นเรื่องประสิทธิภาพข้อมูลที่คุณพูดถึง ข้อมูลโปรตีนเหล่านั้นจะทำให้ความสามารถด้านภาษาของมันช้าลงอย่างแน่นอน วิธีที่ดีกว่าคือการมีโมเดลการใช้งานเครื่องมือทั่วไปที่แข็งแกร่งมาก ซึ่งสามารถเรียกใช้หรือแม้แต่ฝึกอบรมเครื่องมือเฉพาะทางเหล่านั้น แต่เครื่องมือเฉพาะทางเหล่านั้นยังคงเป็นระบบอิสระ

แนวคิดนี้ควรพิจารณาอย่างลึกซึ้ง มันมีผลต่อสิ่งที่คุณจะสร้างวันนี้ รวมถึงโรงงานประเภทใดและระบบการเงินประเภทใดที่คุณจะสร้าง คุณต้องให้ความสำคัญกับตารางเวลาของ AGI จินตนาการว่าโลกนั้นจะเป็นอย่างไร แล้วสร้างสิ่งที่ยังคงมีประโยชน์เมื่อโลกนั้นมาถึง