ผู้เชี่ยวชาญอภิปรายเกี่ยวกับผลกระทบของ OpenClaw ต่อตัวแทน AI และความท้าทายด้านการประมวลผล

ผู้เขียน: จื่อจวินต้า

Zhixidong รายงานเมื่อวันที่ 27 มีนาคม วันนี้ ในงาน Zhongguancun Forum ซีอีโอของ Zhipu คือ Zhang Peng, ซีอีโอของ Moonshot AI คือ Yang Zhilin (ทำหน้าที่เป็นผู้ดำเนินรายการ), Luo Fuli หัวหน้าทีมโมเดลขนาดใหญ่ MiMo ของ Xiaomi, Xia Lixue ซีอีโอของ Wuwen Xinqiong และศาสตราจารย์ช่วยสอนจากมหาวิทยาลัยฮ่องกง Huang Chao ได้ร่วมแสดงบนเวทีเดียวกันเป็นครั้งแรก เพื่อการสนทนาเชิงลึกเกี่ยวกับอนาคตของโมเดลขนาดใหญ่แบบเปิดแหล่งที่มาและตัวแทนอัจฉริยะ

การสนทนานี้เริ่มต้นด้วย OpenClaw ที่กำลังเป็นที่นิยมที่สุดในขณะนี้ ผู้เข้าร่วมทุกคนเห็นพ้องต้องกันว่าตัวแทนปัญญาประดิษฐ์ได้ทำให้แบบจำลองขนาดใหญ่เริ่ม “ทำงาน” อย่างแท้จริง OpenClaw สามารถขยายขอบเขตความสามารถของแบบจำลองขนาดใหญ่ แต่ก็ต้องการข้อกำหนดที่สูงขึ้นจากแบบจำลอง ซีพีจีกำลังวิจัยความสามารถในการวางแผนระยะยาวและการดีบักด้วยตนเอง ในขณะที่ทีมของหลอฟู่ลี่ให้ความสนใจกับการลดต้นทุนและเพิ่มความเร็วผ่านนวัตกรรมสถาปัตยกรรม จนถึงขั้นสามารถทำให้แบบจำลองพัฒนาตนเองได้

โครงสร้างพื้นฐานต้องตามให้ทันจังหวะของเอเจนต์ ซั่วลี่ซือเชื่อว่าระบบประมวลผลและสถาปัตยกรรมซอฟต์แวร์ในปัจจุบันยังถูกออกแบบมาสำหรับมนุษย์ ไม่ใช่สำหรับเอเจนต์ ซึ่งจริงๆ แล้วคือความสามารถในการดำเนินการของมนุษย์ที่จำกัดพื้นที่ในการแสดงศักยภาพของเอเจนต์ ดังนั้น เราจึงจำเป็นต้องสร้าง Agentic Infra

ในมุมมองของแขกหลายคน การเปิดแหล่งที่มาเป็นหนึ่งในแรงผลักดันหลักที่ขับเคลื่อนการพัฒนาของแบบจำลองขนาดใหญ่และตัวแทนอัจฉริยะ ศาสตราจารย์ช่วยศาสตราจารย์ฮวง เฉา จากมหาวิทยาลัยฮ่องกง เชื่อว่า ความเฟื่องฟูของระบบนิเวศแบบเปิดแหล่งที่มาเป็นกุญแจสำคัญที่ทำให้ตัวแทนอัจฉริยะก้าวจาก “เล่นๆ” ไปสู่การเป็น “พนักงานจริง” เท่านั้นผ่านการร่วมมือกันของชุมชน จึงสามารถเปลี่ยนซอฟต์แวร์ ข้อมูล และเทคโนโลยีให้กลายเป็นรูปแบบที่เป็นพื้นฐานของตัวแทนอัจฉริยะอย่างสมบูรณ์ และสร้างระบบนิเวศ AI ที่ยั่งยืนทั่วโลก

นอกจากนี้ ผู้เข้าร่วมอีกหลายท่านยังได้หารือเกี่ยวกับหัวข้อต่างๆ เช่น การปรับขึ้นราคาของโมเดลขนาดใหญ่ การใช้งานโทเค็นที่เพิ่มขึ้นอย่างรวดเร็ว และคำสำคัญของ AI ในอีก 12 เดือนข้างหน้า ด้านล่างนี้คือประเด็นหลักของการอภิปรายวงกลมนี้:

1. จาง เผิง: เมื่อโมเดลมีขนาดใหญ่ขึ้น ต้นทุนการให้บริการก็จะเพิ่มขึ้นตามไปด้วย กลยุทธ์การขึ้นราคาของ Zhipu ในช่วงนี้แท้จริงแล้วเป็นการกลับสู่มูลค่าทางธุรกิจที่เหมาะสม ความแข่งขันด้วยราคาต่ำในระยะยาวไม่เป็นประโยชน์ต่อการพัฒนาอุตสาหกรรม

2. จาง เผิง: การระเบิดของเทคโนโลยีใหม่ๆ เช่น ตัวแทนอัจฉริยะ ทำให้ปริมาณการใช้งานโทเค็นเพิ่มขึ้น 10 เท่า แต่ความต้องการจริงอาจเพิ่มขึ้นถึง 100 เท่า ยังมีความต้องการจำนวนมากที่ยังไม่ได้รับการตอบสนอง ดังนั้นพลังการประมวลผลจึงยังคงเป็นปัญหาสำคัญในอีก 12 เดือนข้างหน้า

3. Luo Fuli: จากมุมมองของผู้ผลิตโมเดลพื้นฐานขนาดใหญ่ OpenClaw รับประกันขีดจำกัดต่ำสุดของโมเดลพื้นฐานขนาดใหญ่ และยกระดับขีดจำกัดสูงสุด ความสำเร็จในการดำเนินงานของโมเดลเปิดแหล่งที่มาของจีนร่วมกับ OpenClaw ใกล้เคียงกับ Claude มากแล้ว

4. หลุ่ยฟู่ลี่: DeepSeek ได้ให้ความกล้าหาญและแรงบันดาลใจแก่ผู้ผลิตโมเดลขนาดใหญ่ภายในประเทศ นวัตกรรมโครงสร้างโมเดลที่ดูเหมือนเป็นการประนีประนอมเพื่อประสิทธิภาพ ได้ก่อให้เกิดการเปลี่ยนแปลงที่แท้จริง ทำให้อุตสาหกรรมสามารถใช้ระดับพลังการประมวลผลที่มีอยู่ให้เกิดประสิทธิภาพสูงสุด

5. โร่ฟู่ลี่: สิ่งที่สำคัญที่สุดในเส้นทาง AGI ของปีหน้าคือ “การวิวัฒนาการด้วยตัวเอง” การวิวัฒนาการด้วยตัวเองทำให้โมเดลขนาดใหญ่สามารถสำรวจได้เหมือนนักวิทยาศาสตร์ชั้นนำ และเป็นเพียงจุดเดียวที่สามารถ “สร้างสิ่งใหม่” ได้ ไม่เพียงแต่ Xiaomi ได้ใช้ Claude Code + โมเดลชั้นนำเพื่อเพิ่มประสิทธิภาพการวิจัยขึ้น 10 เท่า

6. ซ่าลี่ซuede: เมื่อยุค AGI มาถึง โครงสร้างพื้นฐานเองควรเป็นตัวแทนอัจฉริยะ จัดการโครงสร้างพื้นฐานทั้งหมดด้วยตนเอง โดยปรับปรุงโครงสร้างพื้นฐานตามความต้องการของลูกค้า AI เพื่อให้เกิดการวิวัฒนาการและปรับปรุงตนเอง

7. ซ่าลี่ซue: OpenClaw ได้กระตุ้นการใช้งานโทเค็นอย่างรุนแรง ปัจจุบันอัตราการใช้โทเค็นนั้นเหมือนกับช่วงยุค 3G เมื่อครั้งแรกที่ข้อมูลมือถือเริ่มต้น โดยมีวงเงินเดือนละเพียง 100 เมกะไบต์

8. ฮวง เฉา: ในอนาคต ซอฟต์แวร์ส่วนใหญ่จะไม่ได้ออกแบบมาเพื่อมนุษย์ โดยซอฟต์แวร์ ข้อมูล และเทคโนโลยีจะพัฒนาเป็นรูปแบบที่เป็น Agent-Native มนุษย์ในอนาคตอาจแค่ใช้ GUI ที่ “ทำให้ตัวเองมีความสุข” เท่านั้น

นี่คือบันทึกฉบับเต็มของการอภิปรายวงกลม:

01. OpenClaw คือ “โครงสร้างรับน้ำหนัก” การใช้โทเค็นของโมเดลขนาดใหญ่ยังอยู่ในยุค 3G

หยางจื้อหลิน: รู้สึกเป็นเกียรติอย่างยิ่งที่ได้เชิญแขกผู้มีเกียรติทุกท่านในวันนี้ แขกหลายคนมาจากระดับโมเดล ระดับพลังการคำนวณ ไปจนถึงระดับเอเจนต์ คำสำคัญหลักของวันนี้คือโอเพ่นซอร์ส และเอเจนต์

คำถามแรกเกี่ยวกับ OpenClaw ที่เป็นที่นิยมมากที่สุดในขณะนี้ ผู้ใช้งานทั่วไปเมื่อใช้ OpenClaw หรือผลิตภัณฑ์ที่คล้ายกัน มีจุดใดบ้างที่รู้สึกสร้างสรรค์หรือประทับใจที่สุด? จากมุมมองทางเทคนิค คุณคิดเห็นอย่างไรเกี่ยวกับการพัฒนาของ OpenClaw และ Agent ที่เกี่ยวข้องในวันนี้?

จาง เผิง: ฉันเริ่มเล่น OpenClaw ตั้งแต่ยังเรียกว่า Clawbot ฉันเองก็ลงมือทดลอง เพราะฉันเป็นโปรแกรมเมอร์มาก่อน จึงมีประสบการณ์ส่วนตัวในการเล่นสิ่งเหล่านี้

ฉันคิดว่าจุดเด่นหรือสิ่งใหม่ที่ OpenClaw นำมาให้ทุกคนคือ มันไม่ใช่สิทธิพิเศษของนักโปรแกรมหรือผู้ชื่นชอบเทคโนโลยีอีกต่อไป ผู้ใช้ทั่วไปสามารถเข้าถึงความสามารถของโมเดลชั้นนำได้อย่างสะดวกสบาย โดยเฉพาะในด้านการเขียนโปรแกรมและเอเจนต์

ดังนั้นจนถึงตอนนี้ ในกระบวนการสื่อสารกับทุกคน ผมขอเรียก OpenClaw ว่า “โครงร่าง” มันมอบความเป็นไปได้ โดยสร้างโครงร่างที่มั่นคง สะดวก และยืดหยุ่นบนพื้นฐานของโมเดล ทุกคนสามารถใช้ฟีเจอร์ใหม่ๆ ที่โมเดลพื้นฐานต่างๆ ให้มาตามความต้องการของตนเอง

เดิมทีความคิดของตัวเองอาจถูกจำกัดเพราะไม่สามารถเขียนโค้ดหรือไม่มีทักษะที่เกี่ยวข้องอื่นๆ แต่วันนี้มี OpenClaw แล้ว จึงสามารถทำให้สำเร็จได้ผ่านการสื่อสารที่ง่ายมาก

OpenClaw ทำให้ฉันรู้สึกประทับใจอย่างมาก หรือพูดอีกแบบคือทำให้ฉันเข้าใจสิ่งนี้ใหม่ทั้งหมด

ซ่าลี่ซue: จริงๆ แล้วตอนแรกที่ฉันใช้ OpenClaw ฉันรู้สึกไม่คุ้นเคย เพราะฉันเคยชินกับวิธีการพูดคุยกับโมเดลขนาดใหญ่ แต่หลังจากใช้งาน ฉันรู้สึกว่า OpenClaw ตอบช้า

แต่ต่อมาฉันได้ตระหนักถึงปัญหาหนึ่ง นั่นคือมันมีความแตกต่างอย่างมากจากแชทบอทก่อนหน้านี้ เพราะมันเป็นเหมือน “คน” ที่สามารถช่วยฉันทำภารกิจขนาดใหญ่ได้ เมื่อฉันเริ่มส่งภารกิจที่ซับซ้อนมากขึ้น ฉันก็พบว่ามันสามารถทำได้ดีมาก

เรื่องนี้ทำให้ฉันรู้สึกประทับใจมาก ตั้งแต่โมเดลเริ่มต้นด้วยการพูดคุยตามโทเค็น จนถึงตอนนี้สามารถกลายเป็นเอเจนต์ กลายเป็นกุ้งมังกร ที่สามารถช่วยคุณทำภารกิจต่างๆ ได้ เรื่องนี้ได้ขยายขอบเขตจินตนาการของ AI อย่างมาก

ในขณะเดียวกัน ความต้องการต่อความสามารถของระบบโดยรวมก็สูงขึ้นเช่นกัน นี่คือเหตุผลที่ตอนแรกฉันใช้ OpenClaw แล้วรู้สึกว่ามันค่อนข้างช้า เป็นผู้ผลิตชั้นโครงสร้างพื้นฐาน ฉันเห็นว่า OpenClaw ได้นำโอกาสและความท้าทายใหม่ๆ มาสู่ระบบและระบบนิเวศขนาดใหญ่ที่อยู่เบื้องหลัง AI

ทรัพยากรทั้งหมดที่เรามีในขณะนี้ไม่เพียงพอต่อการสนับสนุนยุคที่เติบโตอย่างรวดเร็วเช่นนี้ ตัวอย่างเช่น ในบริษัทของเรา ตั้งแต่ปลายเดือนมกราคม เป็นต้นมา ปริมาณการใช้งาน token เพิ่มขึ้นเป็นสองเท่าทุกสองสัปดาห์ และตอนนี้เพิ่มขึ้นประมาณ 10 เท่า

ครั้งสุดท้ายที่ฉันเห็นความเร็วแบบนี้ คือตอนใช้มือถือ 3G ที่ใช้ข้อมูลไปทุกเดือน ฉันรู้สึกว่า การใช้งานโทเค็นในปัจจุบัน คล้ายกับยุคที่แต่ละเดือนมีข้อมูลมือถือแค่ 100 เมกะไบต์

ในสถานการณ์เช่นนี้ เราจำเป็นต้องปรับปรุงและบูรณาการทรัพยากรทั้งหมดของเราให้ดียิ่งขึ้น เพื่อให้ทุกคน ไม่เพียงแต่ในสาขาปัญญาประดิษฐ์ แต่ในทุกคนในสังคม สามารถใช้ความสามารถด้านปัญญาประดิษฐ์ของ OpenClaw ได้

ในฐานะผู้เล่นในภาคโครงสร้างพื้นฐาน ฉันรู้สึกตื่นเต้นและมีความรู้สึกลึกซึ้งกับยุคสมัยนี้ ฉันเชื่อว่ายังมีพื้นที่สำหรับการปรับปรุงอีกมากมายที่เราควรสำรวจและทดลอง

02. OpenClaw ยกระดับขีดจำกัดของโมเดลภายในประเทศ โหมดการมีปฏิสัมพันธ์มีความหมายสำคัญ

โร่ฟู่ลี่: ฉันเองมองว่า OpenClaw เป็นเหตุการณ์ที่มีความก้าวหน้าและพลิกโฉมอย่างยิ่งในกระบวนการพัฒนาของเฟรมเวิร์กตัวแทน

ที่จริงแล้ว คนที่ฉันรู้จักทุกคนที่กำลังเขียนโค้ดในระดับลึกมาก ตัวเลือกแรกของพวกเขาคือ Claude Code อย่างไรก็ตาม ฉันเชื่อว่าผู้ใช้ OpenClaw จะรู้สึกได้ว่าการออกแบบหลายอย่างในกรอบงาน Agent ของมันนำหน้า Claude Code อยู่ การอัปเดตล่าสุดของ Claude Code ส่วนใหญ่กำลังเข้าใกล้ OpenClaw มากขึ้น

เมื่อฉันใช้งาน OpenClaw ด้วยตัวเอง รู้สึกว่าเฟรมเวิร์กนี้ช่วยขยายจินตนาการของฉันได้ทุกที่ทุกเวลา Claude Code เริ่มต้นแค่ขยายความคิดสร้างสรรค์ของฉันบนเดสก์ท็อป แต่ OpenClaw สามารถขยายความคิดสร้างสรรค์ของฉันได้ทุกที่ทุกเวลา

คุณค่าหลักที่ OpenClaw นำเสนอมีสองประการ ประการแรกคือมันเป็นโอเพนซอร์ส การเป็นโอเพนซอร์สช่วยให้ชุมชนสามารถมีส่วนร่วมอย่างลึกซึ้ง ให้ความสำคัญและผลักดันการพัฒนาของเฟรมเวิร์กนี้ ซึ่งเป็นเงื่อนไขเบื้องต้นที่สำคัญมาก

ฉันคิดว่าคุณค่าที่สำคัญอย่างมากของกรอบงาน AI เช่น OpenClaw คือมันได้ดึงขีดจำกัดของโมเดลภายในประเทศ ซึ่งแม้จะใกล้เคียงกับโมเดลแบบปิด แต่ยังไม่ได้ตามทัน ให้สูงขึ้นมาก

ในสถานการณ์ส่วนใหญ่ คุณจะพบว่าความสำเร็จในการดำเนินงานของมัน (โมเดลโอเพนซอร์สของจีน + OpenClaw) ใกล้เคียงกับโมเดลล่าสุดของ Claude อย่างมาก ในขณะเดียวกัน มันยังรักษาขีดต่ำสุดได้อย่างดี — ผ่านระบบ Harness หรือการออกแบบด้านอื่นๆ เช่น ระบบ Skills เพื่อรับประกันความสมบูรณ์และความแม่นยำของงาน

สรุปคือ จากมุมมองของนักพัฒนาจากผู้ผลิตโมเดลพื้นฐาน OpenClaw รับประกันขีดต่ำสุดของโมเดลพื้นฐาน และยังช่วยยกระดับขีดสูงสุด

นอกจากนี้ ฉันคิดว่ามันยังสร้างมูลค่าอีกประการหนึ่งให้กับชุมชนทั้งหมด โดยการกระตุ้นความเข้าใจของทุกคนให้เห็นว่า ในระดับ Agent นอกเหนือจากโมเดลขนาดใหญ่ ยังมีพื้นที่จินตนาการที่กว้างขวางมาก

ฉันยังสังเกตเห็นว่าในชุมชน นอกเหนือจากนักวิจัยแล้ว ยังมีผู้คนจำนวนมากขึ้นเริ่มมีส่วนร่วมในการเปลี่ยนแปลงของ AGI มากขึ้นเรื่อยๆ ผู้คนเริ่มใช้เฟรมเวิร์กเอเจนต์ที่ทรงพลังกว่า เช่น Harness และ Scaffold ผู้คนเหล่านี้กำลังใช้เครื่องมือเหล่านี้แทนงานบางส่วนของตนเอง และในเวลาเดียวกันก็กำลังปลดปล่อยเวลาของตนเองเพื่อไปมุ่งเน้นกับสิ่งที่มีจินตนาการมากขึ้น

ฮวง เฉา: ฉันคิดว่าจากมุมมองของรูปแบบการโต้ตอบ สาเหตุแรกที่ OpenClaw ได้รับความนิยมครั้งนี้คือมันให้ประสบการณ์ที่มี “ความเป็นมนุษย์” มากขึ้น จริงๆ แล้วเราได้พัฒนา Agent มาประมาณหนึ่งถึงสองปีแล้ว แต่ก่อนหน้านี้ Agent เช่น Cursor, Claude Code ให้ความรู้สึกเหมือนเป็น “เครื่องมือ” มากกว่า ในขณะที่ OpenClaw ครั้งแรกที่นำเข้ามาในรูปแบบของการผสานรวมในแอปพลิเคชันแชท ทำให้ผู้ใช้รู้สึกใกล้เคียงกับ “贾维斯 ส่วนตัว” ที่จินตนาการไว้ ฉันคิดว่านี่อาจเป็นการก้าวกระโดดในด้านรูปแบบการโต้ตอบ

อีกจุดหนึ่งคือ มันได้ให้แรงบันดาลใจแก่ชุมชนทั้งหมดว่า โครงสร้างพื้นฐานที่เรียบง่ายแต่มีประสิทธิภาพอย่าง Agent Loop ได้รับการพิสูจน์อีกครั้งว่าสามารถใช้งานได้จริง พร้อมกันนี้ มันยังทำให้เราต้องทบทวนคำถามหนึ่งอีกครั้ง: เราต้องการตัวแทนอัจฉริยะแบบครบวงจรที่ทำได้ทุกอย่าง หรือต้องการ “ผู้ช่วยส่วนตัว” ที่ดีกว่า ซึ่งทำหน้าที่เหมือนระบบปฏิบัติการหรือโครงสร้างพื้นฐานแบบเบาๆ?

แนวคิดที่ OpenClaw นำเสนอคือผ่าน “ระบบเล็กๆ” หรือ “ระบบปฏิบัติการกุ้งมังกร” และระบบนิเวศของมัน เพื่อให้ทุกคนมีจิตใจที่แท้จริงว่า “เล่นได้” และใช้สิ่งนี้ดึงดูดเครื่องมือทั้งหมดในระบบนิเวศ

ด้วยการปรากฏตัวของทักษะต่างๆ เช่น Skills และ Harness ผู้คนจำนวนมากขึ้นสามารถออกแบบแอปพลิเคชันที่รองรับระบบเช่น OpenClaw เพื่อเสริมพลังให้กับทุกอุตสาหกรรม ฉันรู้สึกว่าจุดนี้เชื่อมโยงอย่างแน่นแฟ้นกับระบบนิเวศโอเพนซอร์สโดยธรรมชาติ สำหรับฉัน สองจุดนี้คือแรงบันดาลใจที่ใหญ่ที่สุดที่เราได้รับ

03. GLM รุ่นใหม่ถูกออกแบบมาเพื่อใช้งานจริง การขึ้นราคาเป็นการกลับสู่มูลค่าทางธุรกิจที่เหมาะสม

หยางจี้หลิน: ขอถาม张先生สักคำถาม ล่าสุดฉันเห็น Zhipu เปิดตัวโมเดล GLM-5 Turbo ใหม่ ฉันเข้าใจว่ามีการเสริมสร้างความสามารถด้าน Agent อย่างมาก ขอให้คุณช่วยแนะนำความแตกต่างระหว่างโมเดลใหม่นี้กับโมเดลอื่นๆ ด้วยไหม? นอกจากนี้เรายังสังเกตเห็นว่ามีการปรับขึ้นราคา ซึ่งสะท้อนสัญญาณตลาดใดบ้าง?

จาง เผิง: นี่เป็นคำถามที่ดีมาก สองวันก่อนเราได้อัปเดตอย่างเร่งด่วนไปหนึ่งครั้ง ซึ่งจริงๆ แล้วเป็นขั้นตอนหนึ่งในแผนพัฒนาของเรา เพียงแต่เราได้เปิดเผยมันออกมาล่วงหน้า

เป้าหมายหลักคือการเปลี่ยนจาก “การพูดคุยแบบง่ายๆ” เป็น “การลงมือทำจริง” — นี่ก็คือสิ่งที่ทุกคนรู้สึกได้ในช่วงนี้: โมเดลขนาดใหญ่ไม่ได้แค่พูดคุยได้ แต่สามารถช่วยคนทำงานได้จริงแล้ว

แต่ความสามารถที่ซ่อนอยู่เบื้องหลังการ “ทำงาน” นั้นสูงมาก โมเดลต้องสามารถวางแผนงานระยะยาวด้วยตัวเอง ทดลองและผิดพลาดอย่างต่อเนื่อง บีบอัดบริบท ดีบัก และอาจต้องจัดการข้อมูลแบบมัลติมอดัล ดังนั้น ความต้องการด้านความสามารถของมันจึงแตกต่างจากโมเดลทั่วไปที่ออกแบบมาเพื่อการสนทนา GLM-5 Turbo ได้รับการเสริมสร้างเป็นพิเศษในด้านเหล่านี้ โดยเฉพาะอย่างยิ่งในสิ่งที่คุณกล่าวถึง—การทำให้มันสามารถ “ทำงาน” และรันต่อเนื่องเป็นเวลาเจ็ดสิบสองชั่วโมง โดยไม่หยุดวนซ้ำ เราได้ลงแรงงานจำนวนมากในการพัฒนาเรื่องนี้

นอกจากนี้ ผู้ใช้งานยังให้ความสนใจอย่างมากกับปัญหาการใช้โทเค็น การให้โมเดลที่ชาญฉลาดทำงานซับซ้อนจะใช้โทเค็นจำนวนมาก ผู้ใช้ทั่วไปอาจไม่รู้สึกชัดเจน แต่เมื่อดูใบแจ้งหนี้จะเห็นว่าเงินหายไปอย่างรวดเร็ว เราจึงได้ทำการปรับปรุงในด้านนี้ โดยเมื่อเผชิญกับงานซับซ้อน โมเดลสามารถดำเนินการด้วยประสิทธิภาพการใช้โทเค็นที่มีประสิทธิภาพมากขึ้น โดยรวมแล้ว สถาปัตยกรรมของโมเดลยังคงเป็นสถาปัตยกรรมแบบหลายงานร่วมกัน แต่ได้เสริมความสามารถให้มีความชัดเจนมากขึ้น

การเพิ่มราคาในเรื่องนี้อธิบายได้ง่ายมาก ดังที่กล่าวไปก่อนหน้านี้ ตอนนี้ไม่ใช่แค่การตั้งคำถามง่ายๆ แล้วได้คำตอบกลับมาเท่านั้น แต่กระบวนการให้เหตุผลข้างหลังยาวมาก งานหลายอย่างต้องใช้การเขียนโค้ดและมีปฏิสัมพันธ์กับโครงสร้างพื้นฐานระดับล่าง พร้อมทั้งต้องแก้ไขข้อผิดพลาดอย่างต่อเนื่อง ซึ่งใช้ทรัพยากรจำนวนมาก การทำภารกิจที่ซับซ้อนหนึ่งรายการอาจต้องใช้โทเค็นมากกว่าการตอบคำถามง่ายๆ เดิมถึงสิบเท่าหรือแม้แต่ร้อยเท่า

ดังนั้น ราคาจึงต้องมีการปรับตัวสูงขึ้นเล็กน้อย และโมเดลก็มีขนาดใหญ่ขึ้น ทำให้ต้นทุนการประมวลผลเพิ่มขึ้นตามไปด้วย เราจึงกลับมาที่มูลค่าทางธุรกิจที่เหมาะสม เพราะการแข่งขันด้วยราคาต่ำในระยะยาวไม่ได้ช่วยส่งเสริมการพัฒนาของอุตสาหกรรมโดยรวม นี่คือเหตุผลที่เราต้องการสร้างวงจรเชิงพาณิชย์ที่เป็นบวก เพื่อปรับปรุงความสามารถของโมเดลอย่างต่อเนื่อง และให้บริการที่ดียิ่งขึ้นแก่คุณ

04. สร้างโรงงานโทเค็นที่มีประสิทธิภาพมากขึ้น โครงสร้างพื้นฐานเองก็ควรเป็น Agent

หยางจื้อหลิน: ขณะนี้แบบจำลองแบบเปิดแหล่งที่มาเพิ่มขึ้นเรื่อยๆ และเริ่มก่อตัวเป็นระบบนิเวศ แบบจำลองต่างๆ สามารถให้คุณค่าเพิ่มเติมแก่ผู้ใช้บนแพลตฟอร์มการประมวลผลที่หลากหลาย พร้อมกับการระเบิดของปริมาณการใช้งานโทเค็น แบบจำลองขนาดใหญ่กำลังก้าวจากยุคการฝึกฝนสู่ยุคการให้เหตุผล ขอถามลี่ซวีเกี่ยวกับมุมมองด้านโครงสร้างพื้นฐานว่า ยุคการให้เหตุผลหมายความว่าอย่างไรสำหรับ Wuwen?

ซ่าลี่ซue: เรามีฐานการผลิตที่เกิดขึ้นในยุคปัญญาประดิษฐ์ และขณะนี้เราก็ให้การสนับสนุนแก่ Zhipu, Kimi, Mimo และอื่นๆ เพื่อช่วยให้ผู้ใช้งานสามารถใช้งานโรงงานโทเค็นได้อย่างมีประสิทธิภาพมากยิ่งขึ้น ในขณะเดียวกัน เรายังร่วมมือกับมหาวิทยาลัยและสถาบันวิจัยหลายแห่ง

ดังนั้น เราจึงได้ครุ่นคิดเกี่ยวกับสิ่งหนึ่งเสมอ: โครงสร้างพื้นฐานที่จำเป็นในยุค AGI คืออะไร? และเราจะก้าวไปสู่การสร้างและจำลองมันอย่างไรทีละขั้นตอน? ในขณะนี้ เราได้เตรียมความพร้อมอย่างเต็มที่สำหรับปัญหาที่ต้องแก้ไขในแต่ละช่วงเวลา ระยะสั้น กลาง และยาว

ปัญหาที่ตรงที่สุดในขณะนี้ คือสิ่งที่ทุกคนเพิ่งพูดถึง—ปริมาณโทเค็นที่ Open นำมาเพิ่มขึ้นอย่างมาก ซึ่งสร้างความต้องการในการปรับปรุงประสิทธิภาพของระบบให้สูงขึ้น รวมถึงการปรับราคา ก็เป็นวิธีการตอบสนองต่อความต้องการนี้

เราได้จัดการและแก้ไขปัญหาผ่านการเชื่อมต่อทั้งซอฟต์แวร์และฮาร์ดแวร์ เช่น เราได้เชื่อมต่อชิปการคำนวณเกือบทุกประเภท รวมถึงชิปต่างๆ มากกว่าสิบชนิดในประเทศและคลัสเตอร์พลังการคำนวณหลายสิบคลัสเตอร์ให้เชื่อมต่อกันอย่างเป็นระบบ วิธีนี้สามารถแก้ไขปัญหาการขาดแคลนทรัพยากรพลังการคำนวณในระบบ AI ได้ เมื่อทรัพยากรไม่เพียงพอ วิธีที่ดีที่สุดคือการใช้ทรัพยากรที่มีอยู่ทั้งหมดให้เต็มประสิทธิภาพ และใช้พลังการคำนวณแต่ละหน่วยให้เกิดประสิทธิภาพสูงสุด

ดังนั้นในขั้นตอนนี้ สิ่งที่เราต้องแก้ไขคือการสร้างโรงงานโทเค็นที่มีประสิทธิภาพสูงขึ้น เราได้ทำการปรับปรุงหลายอย่าง รวมถึงการปรับให้เหมาะสมอย่างยอดเยี่ยมระหว่างโมเดลกับทรัพยากรต่างๆ เช่นหน่วยความจำ GPU บนฮาร์ดแวร์ และกำลังศึกษาว่าโครงสร้างโมเดลและฮาร์ดแวร์รุ่นใหม่ล่าสุดสามารถสร้างปฏิกิริยาที่ลึกซึ้งยิ่งขึ้นได้หรือไม่ แต่การแก้ปัญหาประสิทธิภาพในปัจจุบันนั้น แท้จริงแล้วแค่สร้างโรงงานโทเค็นมาตรฐานเท่านั้น

สำหรับยุคของ Agent เรามองว่าสิ่งนี้ยังไม่เพียงพอ เพราะ Agent นั้นคล้ายมนุษย์มากกว่า คุณสามารถมอบงานให้มันได้ ฉันเชื่อมั่นอย่างแน่นอนว่าโครงสร้างพื้นฐานในยุคคลาวด์คอมพิวติ้งส่วนใหญ่ในปัจจุบันถูกออกแบบมาเพื่อให้บริการโปรแกรมหรือวิศวกรมนุษย์ ไม่ใช่เพื่อ AI โดยตรง ซึ่งเทียบได้กับการสร้างโครงสร้างพื้นฐานที่มีอินเทอร์เฟซสำหรับมนุษย์ใช้งาน แล้วจึงเพิ่มชั้นอีกชั้นหนึ่งเพื่อเชื่อมต่อ Agent วิธีการนี้แท้จริงแล้วจำกัดศักยภาพของ Agent ด้วยความสามารถในการดำเนินการของมนุษย์

ตัวอย่างเช่น ตัวแทนสามารถคิดและเริ่มต้นงานในระดับมิลลิวินาที แต่ความสามารถพื้นฐานอย่าง K8s (kubernetes) ยังไม่ได้รับการเตรียมความพร้อมสำหรับสิ่งนี้ เพราะมนุษย์มักเริ่มต้นงานในระดับนาที ดังนั้นเราจึงต้องการความสามารถที่ล้ำขึ้นอีกขั้น ซึ่งเราเรียกว่า “Agentic Infra” หรือ “โรงงานโทเค็นอัจฉริยะ” นี่คือสิ่งที่ Wuwen Xinqiong กำลังทำ

ในระยะยาว เมื่อถึงยุคของ AGI ที่แท้จริง เราเชื่อว่าโครงสร้างพื้นฐานเองก็ควรจะเป็นตัวแทนอัจฉริยะ โรงงานที่เราสร้างขึ้นก็ควรจะสามารถพัฒนาและปรับปรุงตัวเองได้ โดยก่อตั้งเป็นองค์กรอิสระ ซึ่งเทียบเท่ากับมีซีอีโอที่เป็นตัวแทนอัจฉริยะเอง เช่น OpenClaw ที่จะจัดการโครงสร้างพื้นฐานทั้งหมด และสามารถระบุความต้องการและปรับปรุงโครงสร้างพื้นฐานเองตามความต้องการของลูกค้า AI ดังนั้น AI จึงจะสามารถเชื่อมโยงกันได้อย่างมีประสิทธิภาพมากขึ้น เราได้ทำการสำรวจบางอย่าง เช่น การทำให้ตัวแทนต่างๆ สื่อสารกันได้ดีขึ้น และมีความสามารถในการทำ Cache to Cache

ดังนั้น สิ่งที่เราได้คิดมาโดยตลอดคือ การพัฒนาโครงสร้างพื้นฐานและ AI ไม่ควรเป็นสถานการณ์ที่แยกจากกัน—ฉันรับคำขอแล้วก็แค่ดำเนินการให้เสร็จ แต่ควรเกิดปฏิกิริยาทางเคมีที่อุดมสมบูรณ์อย่างแท้จริง นี่คือความร่วมมือระหว่างซอฟต์แวร์และฮาร์ดแวร์อย่างแท้จริง รวมถึงการร่วมมือระหว่างอัลกอริทึมและโครงสร้างพื้นฐาน ซึ่งเป็นภารกิจที่ Wuwen Xinqiong มุ่งมั่นจะบรรลุมาโดยตลอด ขอบคุณ

05. การประนีประนอมเพื่อประสิทธิภาพก็มีความหมาย เช่น DeepSeek มอบความกล้าหาญและความมั่นใจให้กับทีมในประเทศ

หยางจื้อหลิน: ต่อไปฉันอยากถามฟู่ลี่สักคำถาม ล่าสุด ซีอีโอได้สร้างผลงานที่สำคัญต่อชุมชนด้วยการเปิดตัวโมเดลใหม่และเปิดซอร์สเทคโนโลยีพื้นฐาน ฉันอยากถามคุณว่า ตามความเห็นของคุณ ซีอีโอมีข้อได้เปรียบเฉพาะตัวอะไรในการพัฒนาโมเดลขนาดใหญ่?

Luo Fuli: ฉันคิดว่าเราอาจเริ่มต้นด้วยการละประเด็นเรื่องข้อได้เปรียบเฉพาะตัวของ Xiaomi ไปก่อน ฉันอยากพูดถึงข้อได้เปรียบโดยรวมของทีมจีนในการพัฒนาโมเดลขนาดใหญ่ ฉันคิดว่าหัวข้อนี้มีคุณค่ากว้างขวางกว่า

เมื่อประมาณสองปีก่อน ทีมโมเดลพื้นฐานของจีนได้เริ่มบรรลุความก้าวหน้าที่ดีเยี่ยม—เราได้ค้นหาวิธีการเอาชนะข้อจำกัดของพลังการประมวลผลระดับต่ำ โดยเฉพาะอย่างยิ่งภายใต้ข้อจำกัดของแบนด์วิธการเชื่อมต่อ NVLink ผ่านการสร้างนวัตกรรมโครงสร้างโมเดลที่ดูเหมือนเป็นการประนีประนอมเพื่อประสิทธิภาพ เช่น ซีรีส์ DeepSeek V2, V3 และ MoE, MLA เป็นต้น

แต่ต่อมาเราเห็นว่าสิ่งที่นวัตกรรมเหล่านี้ก่อให้เกิดขึ้นคือการเปลี่ยนแปลง: ภายใต้ข้อจำกัดของพลังการคำนวณที่คงที่ ควรทำอย่างไรจึงจะบรรลุระดับปัญญาสูงสุด นี่คือแรงบันดาลใจและความมั่นใจที่ DeepSeek มอบให้กับทีมโมเดลพื้นฐานทั้งหมดในประเทศ แม้ว่าวันนี้ชิปภายในประเทศของเรา โดยเฉพาะชิปสำหรับการให้บริการและการฝึกอบรม จะไม่ถูกจำกัดด้วยข้อจำกัดเหล่านี้อีกต่อไป แต่正是在这种限制下，催生了我们对更高训练效率、更低推理成本的模型结构的新探索。

เช่นโครงสร้างที่เพิ่งปรากฏขึ้นเมื่อเร็วๆ นี้ เช่น Hybrid Sparse และ Linear Attention ตัวอย่างเช่น NSA ของ DeepSeek และ KSA ของ Kimi รวมถึง HySparse ของ Xiaomi ซึ่งเป็นนวัตกรรมโครงสร้างโมเดลที่แตกต่างจากโครงสร้างรุ่น MoE และถูกออกแบบมาเพื่อรองรับยุค Agent

ทำไมฉันถึงรู้สึกว่าการสร้างนวัตกรรมเชิงโครงสร้างสำคัญมาก? ที่จริงแล้ว หากทุกคนได้ใช้งาน OpenClaw อย่างแท้จริง จะพบว่ามันยิ่งใช้ยิ่งใช้งานง่ายและยิ่งใช้ยิ่งฉลาดขึ้น หนึ่งในเงื่อนไขพื้นฐานคือความยาวของบริบทในการให้เหตุผล บริบทยาวเป็นหัวข้อที่เราพูดถึงมานาน แต่ตอนนี้มีโมเดลใดบ้างที่สามารถทำงานได้ดี มีประสิทธิภาพสูง และมีต้นทุนการให้เหตุผลต่ำในบริบทยาว?

ที่จริงแล้ว โมเดลหลายตัวไม่ได้ทำไม่ได้ที่บริบท 1M หรือ 10M แต่เป็นเพราะต้นทุนในการประมวลผลบริบท 1M, 10M สูงเกินไปและช้าเกินไป การลดต้นทุนและเพิ่มความเร็วจึงจะช่วยให้สามารถมอบงานที่มีคุณค่าด้านผลิตภาพสูงจริงๆ ให้กับโมเดล และสามารถดำเนินงานที่ซับซ้อนมากขึ้นภายใต้บริบทที่ยาวนาน จนถึงขั้นทำให้โมเดลสามารถปรับปรุงตัวเองได้

การวนซ้ำด้วยตัวเองของโมเดล หมายถึงมันสามารถพัฒนาตนเองได้ในสภาพแวดล้อมที่ซับซ้อน โดยอิงจากบริบทที่ยาวมาก การพัฒนานี้อาจเกี่ยวข้องกับโครงสร้างของเอเจนต์เอง หรืออาจเกี่ยวข้องกับพารามิเตอร์ของโมเดลเอง—เนื่องจากผมเชื่อว่าบริบทเองก็คือการพัฒนาของพารามิเตอร์อย่างหนึ่ง ดังนั้น การออกแบบสถาปัตยกรรมที่รองรับบริบทยาว การทำให้การอนุมานด้วยบริบทยาวมีประสิทธิภาพ จึงเป็นการแข่งขันในทุกด้าน

นอกจากการสร้างสถาปัตยกรรมที่มีประสิทธิภาพในการจัดการบริบทยาวในขั้นตอนการฝึกล่วงหน้าที่ฉันเพิ่งกล่าวถึง—ซึ่งเป็นปัญหาที่เราเริ่มสำรวจเมื่อประมาณหนึ่งปีก่อน—ตอนนี้สิ่งที่เราต้องทำให้สำเร็จจริงๆ คือการบรรลุความเสถียรและความสามารถสูงสุดในการทำงานระยะยาว ซึ่งเป็นนวัตกรรมรูปแบบใหม่ที่เรากำลังปรับปรุงในขั้นตอนการฝึกหลัง

เรากำลังพิจารณาว่าจะสร้างอัลกอริธึมการเรียนรู้ที่มีประสิทธิภาพมากขึ้นอย่างไร รวมถึงการรวบรวมข้อความที่มีความพึ่งพาในระยะยาวจริงๆ ในบริบท 1M, 10M, 100M และผสานรวมข้อมูลเส้นทางที่เกิดจากสภาพแวดล้อมที่ซับซ้อน นี่คือสิ่งที่เรากำลังทำอยู่ในขั้นตอนการฝึกหลัง

แต่ในระยะยาว ด้วยความก้าวหน้าอย่างรวดเร็วของโมเดลขนาดใหญ่ บวกกับการสนับสนุนจากกรอบงาน Agent อย่างที่ลี่ซue กล่าวไว้ ความต้องการด้านการคำนวณได้เพิ่มขึ้นประมาณสิบเท่าในช่วงเวลาที่ผ่านมา ดังนั้น ปริมาณการใช้งานโทเค็นทั้งหมดในปีนี้จะเพิ่มขึ้นถึงร้อยเท่าไหม?

ที่นี่ยังเข้าสู่การแข่งขันในมิติอื่นอีก—พลังการประมวลผล หรือชิปการให้เหตุผล จนถึงพลังงานในระดับลึกกว่านั้น ดังนั้นฉันคิดว่า หากทุกคนร่วมกันคิดเรื่องนี้ ฉันอาจได้เรียนรู้จากทุกคนมากขึ้น ขอบคุณ

06. Agent มีสามโมดูลหลัก การระเบิดของหลาย Agent จะก่อให้เกิดผลกระทบ

หยางจื้อหลิน: การแบ่งปันที่มีความเข้าใจลึกซึ้งมาก ต่อไปนี้อยากถามฮวง เฉา คุณได้พัฒนาโปรเจกต์เอเจนต์ที่มีอิทธิพลอย่าง Nanobot และมีแฟนคลับในชุมชนจำนวนมาก อยากทราบว่าจากมุมมองของHarness หรือการใช้งานเอเจนต์ คุณคิดว่าทิศทางเทคโนโลยีใดที่สำคัญและควรให้ความสนใจในอนาคต?

ฮวง เฉา: ฉันคิดว่าหากแยกแยะเทคโนโลยีของตัวแทนออกเป็นส่วนๆ แกนหลักคือโมดูลการวางแผน หน่วยความจำ และการใช้เครื่องมือ

มาพูดถึงการวางแผนก่อน ปัญหาในปัจจุบันส่วนใหญ่อยู่ที่งานระยะยาวหรือบริบทที่ซับซ้อนมาก เช่น 500 ขั้นตอนหรือมากกว่านั้น โมเดลหลายตัวอาจไม่สามารถวางแผนได้อย่างมีประสิทธิภาพ ฉันคิดว่าแก่นแท้คือโมเดลอาจไม่มีความรู้เชิงนัยประเภทนี้ โดยเฉพาะในโดเมนเฉพาะที่ซับซ้อน ดังนั้นในอนาคตอาจจำเป็นต้องถ่ายทอดความรู้เกี่ยวกับงานซับซ้อนต่างๆ ลงในโมเดล ซึ่งอาจเป็นทิศทางหนึ่ง

แน่นอน Skill และ Harness ในระดับหนึ่งก็ช่วยลดข้อผิดพลาดที่เกิดจาก Planning เพราะมันให้ Skill ที่มีคุณภาพสูง ซึ่งโดยพื้นฐานแล้วกำลังช่วยนำโมเดลไปทำภารกิจที่ค่อนข้างยาก

พูดถึง Memory อีกครั้ง Memory ดูเหมือนจะมีปัญหาเกี่ยวกับการบีบอัดข้อมูลไม่แม่นยำและการค้นหาข้อมูลไม่ถูกต้อง โดยเฉพาะในงานระยะยาวและสถานการณ์ที่ซับซ้อน ความกดดันต่อ Memory จะเพิ่มขึ้นอย่างมาก ขณะนี้โปรเจกต์อย่าง OpenClaw ทุกคนใช้ Memory รูปแบบ Markdown แบบระบบไฟล์พื้นฐานที่สุด โดยใช้การแชร์ไฟล์ร่วมกัน ในอนาคต Memory อาจพัฒนาไปสู่การออกแบบแบบหลายชั้น และจำเป็นต้องทำให้มันเป็นสากลยิ่งขึ้น

พูดตามตรง กลไก Memory ในปัจจุบันยากที่จะทำให้ใช้งานได้ทั่วไป—เนื่องจากบริบทการเขียนโค้ด บริบทการวิจัยเชิงลึก และบริบทแบบมัลติมอดัล มีความแตกต่างอย่างมากในรูปแบบข้อมูล วิธีการค้นหาและจัดดัชนี Memory เหล่านี้ให้ดี พร้อมทั้งรักษาประสิทธิภาพไว้นั้น ยังคงเป็นเรื่องของการชั่งน้ำหนักเสมอ

นอกจากนี้ ตอนนี้ OpenClaw ได้ลดขั้นตอนการสร้าง Agent ลงอย่างมาก ดังนั้นในอนาคตอาจมีไม่ใช่แค่ “กุ้งมังกร” ตัวเดียวเท่านั้น ผมเห็นว่า Kimi ก็มีกลไกเช่น Agent Swarm ออกมาแล้ว อนาคตแต่ละคนอาจมี “กลุ่มกุ้งมังกร” ของตัวเอง

การมีกุ้งจำนวนมากแทนที่จะเป็นกุ้งตัวเดียวทำให้บริบทเพิ่มขึ้นอย่างมาก ซึ่งจะสร้างภาระอย่างมากต่อหน่วยความจำ ปัจจุบันยังไม่มีกลไกที่ดีพอในการจัดการบริบทที่เกิดจาก “กุ้งจำนวนมาก” โดยเฉพาะในสถานการณ์ที่ซับซ้อนเช่น การเขียนโค้ดหรือการค้นพบทางวิทยาศาสตร์ ทั้งโมเดลและสถาปัตยกรรมของเอเจนต์ต่างก็เผชิญกับภาระอย่างมาก

พูดถึงการใช้เครื่องมือ หรือทักษะ (Skill) อีกครั้ง ปัญหาที่ทักษะมีอยู่ในขณะนี้คล้ายกับปัญหาที่ MCP เคยมีในอดีต—MCP เคยมีปัญหาเรื่องคุณภาพไม่แน่นอนและเสี่ยงด้านความปลอดภัย ทักษะในปัจจุบันก็เช่นกัน ดูเหมือนจะมีทักษะจำนวนมาก แต่ทักษะคุณภาพสูงมีน้อยมาก และทักษะคุณภาพต่ำจะส่งผลต่อความแม่นยำในการดำเนินงานของเอเจนต์ นอกจากนี้ยังมีปัญหาการฉีดข้อมูลที่เป็นอันตรายด้วย ดังนั้นจากมุมมองของการใช้เครื่องมือ อาจจำเป็นต้องพึ่งชุมชนเพื่อพัฒนาระบบนิเวศของทักษะให้ดียิ่งขึ้น จนกระทั่งทักษะสามารถพัฒนาและสร้างทักษะใหม่ขึ้นมาเองได้ในระหว่างการดำเนินงาน

โดยรวมแล้ว ตั้งแต่ Planning, Memory ไปจนถึง Tool Use เหล่านี้คือจุดที่ Agent กำลังเผชิญอยู่ในปัจจุบัน และยังเป็นทิศทางที่อาจเกิดขึ้นในอนาคต

07. คีย์เวิร์ดในอีก 12 เดือนข้างหน้า: ระบบนิเวศ, โทเค็นที่ยั่งยืน, การพัฒนาด้วยตัวเอง และพลังการประมวลผล

หยางจื้อหลิน: สามารถเห็นได้ว่าแขกรับเชิญทั้งสองท่านได้หารือเกี่ยวกับปัญหาเดียวกันจากมุมมองที่ต่างกัน—เมื่อความซับซ้อนของงานเพิ่มขึ้น บริบทจะเพิ่มขึ้นอย่างมาก จากมุมมองของโมเดล สามารถเพิ่มความยาวบริบทดั้งเดิมได้ ส่วนจากมุมมองของ Agent Harness กลไกต่างๆ เช่น Planning, Memory, Multi-Agent ก็สามารถสนับสนุนงานที่ซับซ้อนยิ่งขึ้นภายใต้ความสามารถของโมเดลเฉพาะ ฉันคิดว่าทั้งสองทิศทางนี้จะเกิดปฏิกิริยาทางเคมีเพิ่มเติมในอนาคต และช่วยเพิ่มความสามารถในการดำเนินงานให้สูงขึ้นอีก

สุดท้ายนี้ เรามาถึงการคาดการณ์แบบเปิดกว้าง กรุณาใช้คำหนึ่งคำเพื่ออธิบายแนวโน้มการพัฒนาของโมเดลขนาดใหญ่ในอีก 12 เดือนข้างหน้าและความคาดหวังของคุณ ครั้งนี้เริ่มจากฮวง เฉา

ฮวง เฉา: 12 เดือนในแวดวง AI ดูเหมือนไกลมาก เราไม่รู้ว่าอีก 12 เดือนข้างหน้าจะพัฒนาไปถึงไหน

หยางจีหลิน: เดิมที่นี่เขียนว่าห้าปี ฉันได้แก้ไขแล้ว

ฮวง เฉา: ใช่ ฮ่าฮ่า คำหนึ่งที่ฉันนึกถึงคือ “ระบบนิเวศ” ปัจจุบัน OpenClaw ทำให้ทุกคนมีส่วนร่วมอย่างมาก แต่ในอนาคต ตัวแทนต้องกลายเป็น “พนักงาน” จริงๆ ไม่ใช่แค่สิ่งที่ทุกคนเล่นเพื่อความสนุกหรือความใหม่ๆ ควรทำให้มันหยั่งรากลึกจริงๆ เป็นเครื่องมือสำหรับทำงานหนัก และเป็นเพื่อนร่วมงานที่แท้จริง

สิ่งนี้ต้องการความร่วมมือจากทั้งระบบนิเวศ โดยเฉพาะการเปิดแหล่งที่มาของรหัส หลังจากเปิดเผยการสำรวจเทคโนโลยีและเทคโนโลยีโมเดลแล้ว จำเป็นต้องให้ชุมชนร่วมกันสร้างสรรค์—ไม่ว่าจะเป็นการพัฒนาโมเดล การพัฒนาแพลตฟอร์ม Skill หรือเครื่องมือต่างๆ ล้วนต้องสร้างระบบนิเวศที่เหมาะสมยิ่งขึ้นสำหรับกุ้ง

แนวโน้มที่ชัดเจนคือ ซอฟต์แวร์ในอนาคตจะยังคงถูกออกแบบมาสำหรับมนุษย์ใช้งานอยู่หรือไม่? ฉันเชื่อว่าในอนาคต ซอฟต์แวร์จำนวนมากอาจไม่ได้ถูกออกแบบมาเพื่อมนุษย์อีกต่อไป — เพราะมนุษย์ต้องการ GUI แต่ในอนาคตอาจเป็นการใช้งานที่เป็นแบบ Agent-Native อย่างน่าสนใจคือ มนุษย์อาจใช้งานเฉพาะ GUI ที่ทำให้พวกเขารู้สึกมีความสุขเท่านั้น ในขณะเดียวกัน ระบบนิเวศทั้งหมดก็กำลังเปลี่ยนจาก GUI และ MCP มาเป็นรูปแบบ CLI ซึ่งจำเป็นต้องปรับเปลี่ยนระบบซอฟต์แวร์ ข้อมูล และเทคโนโลยีต่างๆ ให้เป็นรูปแบบ Agent-Native เพื่อให้การพัฒนาทั้งหมดมีความหลากหลายยิ่งขึ้น

โร่ ฟู่ลี่: การลดขอบเขตของปัญหาให้เหลือหนึ่งปี ฉันคิดว่ามีความหมายมาก หากเป็นห้าปี ตามนิยามของ AGI ที่ฉันเข้าใจ ฉันคิดว่ามันได้รับการบรรลุแล้ว ดังนั้น หากต้องอธิบายสิ่งที่สำคัญที่สุดในเส้นทางของ AGI ในปีหน้าด้วยประโยคเดียว ฉันคิดว่ามันคือ “การวิวัฒนาการด้วยตนเอง”

คำนี้ฟังดูเหมือนเป็นเรื่องลึกลับ และในปีที่ผ่านมาหลายคนเคยพูดถึงมันหลายครั้ง แต่ฉันเพิ่งมีความเข้าใจลึกซึ้งขึ้นเกี่ยวกับมัน หรือพูดอีกแบบคือ ได้แนวทางที่เป็นรูปธรรมและเป็นไปได้มากขึ้นสำหรับการ “พัฒนาตนเอง” เหตุผลก็คือ หลังจากมีโมเดลที่ทรงพลังแล้ว เราไม่เคยใช้ศักยภาพสูงสุดของโมเดลที่ผ่านการฝึกล่วงหน้าในรูปแบบ Chat แต่กรอบงาน Agent ได้ปลดล็อกศักยภาพนั้น เมื่อเราให้โมเดลทำงานที่ใช้เวลานานขึ้น พบว่ามันสามารถเรียนรู้และพัฒนาตัวเองได้

การทดลองอย่างง่ายคือ: เพิ่มข้อจำกัดที่สามารถตรวจสอบได้เข้าไปในกรอบงาน Agent ปัจจุบัน แล้วตั้ง Loop ให้โมเดลดำเนินการปรับปรุงเป้าหมายอย่างต่อเนื่อง คุณจะพบว่ามันสามารถเสนอแนวทางที่ดีขึ้นเรื่อยๆ ได้อย่างต่อเนื่อง การวิวัฒนาการด้วยตนเองนี้ในปัจจุบันสามารถทำงานได้นานหนึ่งถึงสองวัน ขึ้นอยู่กับความยากของงาน

ตัวอย่างเช่น ในงานวิจัยบางด้าน เช่น การค้นหาโครงสร้างโมเดลที่ดีขึ้น เนื่องจากโครงสร้างโมเดลมีมาตรฐานการประเมิน เช่น PPL ที่ต่ำกว่า ในงานที่มีความแน่นอนเช่นนี้ เราพบว่ามันสามารถปรับปรุงและดำเนินการด้วยตนเองได้เป็นเวลาสองถึงสามวัน

ดังนั้นจากมุมมองของฉัน การวิวัฒนาการด้วยตัวเองคือจุดเดียวที่สามารถ “สร้างสิ่งใหม่” ได้ มันไม่ได้แทนที่ผลิตภาพของมนุษย์ที่มีอยู่ แต่เหมือนนักวิทยาศาสตร์ชั้นนำที่สำรวจสิ่งที่ยังไม่มีในโลก หนึ่งปีก่อนฉันคิดว่าเส้นเวลาควรยืดออกไปสามถึงห้าปี แต่เมื่อไม่นานมานี้ฉันรู้สึกว่าควรลดลงเหลือหนึ่งถึงสองปี อาจเร็วๆ นี้เราสามารถรวมโมเดลขนาดใหญ่เข้ากับกรอบงานตัวแทนการวิวัฒนาการด้วยตัวเองที่ทรงพลัง เพื่อเร่งความก้าวหน้าทางวิทยาศาสตร์อย่างน้อยเป็นแบบเลขชี้กำลัง

ฉันเพิ่งค้นพบว่าเพื่อนร่วมทีมของฉันที่ศึกษาโมเดลขนาดใหญ่มีกระบวนการทำงานที่ไม่แน่นอนและสร้างสรรค์สูง แต่ด้วยการใช้ Claude Code ร่วมกับโมเดลชั้นนำ ประสิทธิภาพการวิจัยของเราได้เพิ่มขึ้นเกือบสิบเท่า ฉันจึงรอคอยอย่างตั้งใจว่ารูปแบบนี้จะขยายไปยังสาขาวิชาและสาขาอื่นๆ อย่างกว้างขวาง ดังนั้นฉันจึงคิดว่า “การวิวัฒนาการด้วยตนเอง” มีความสำคัญอย่างยิ่ง

ซ่าลี่ซue: คีย์เวิร์ดของฉันคือ "โทเค็นที่ยั่งยืน" ฉันเห็นว่าการพัฒนาของ AI ยังอยู่ในกระบวนการระยะยาว และเรายังต้องการให้มันมีชีวิตยืนยาว จากรูปแบบโครงสร้างพื้นฐาน ปัญหาใหญ่อย่างหนึ่งคือทรัพยากรสุดท้ายแล้วมีจำกัด

เช่นเดียวกับเมื่อครั้งพูดถึงการพัฒนาที่ยั่งยืน เราในฐานะโรงงานโทเค็น สามารถจัดหาโทเค็นอย่างต่อเนื่อง คงที่ และในปริมาณใหญ่ เพื่อให้แบบจำลองชั้นนำสามารถให้บริการกับผู้ใช้งานรายย่อยได้มากขึ้น นี่คือปัญหาที่เราเห็นว่าสำคัญมาก

เราต้องขยายมุมมองให้กว้างขึ้นไปยังระบบนิเวศทั้งหมด—ตั้งแต่พลังงานไปจนถึงพลังการคำนวณ แล้วมาถึงโทเค็น และสุดท้ายคือแอปพลิเคชัน เพื่อสร้างการพัฒนาแบบเศรษฐกิจที่ยั่งยืน เราไม่เพียงแต่จะใช้พลังการคำนวณต่างๆ ภายในประเทศเท่านั้น แต่ยังส่งออกความสามารถเหล่านี้ไปยังต่างประเทศ เพื่อให้ทรัพยากรทั่วโลกสามารถเชื่อมโยงและบูรณาการกันได้

ฉันก็คิดว่า “ยั่งยืน” จริงๆ แล้วกำลังสร้างเศรษฐกิจโทเค็นแบบจีนขึ้นมา ในอดีตเราพูดถึง Made in China ที่เปลี่ยนความสามารถในการผลิตราคาถูกของจีนให้กลายเป็นสินค้าคุณภาพดีที่ส่งออกไปทั่วโลก

สิ่งที่เราต้องทำตอนนี้คือ “AI Made in China” — แปลงข้อได้เปรียบของจีนในด้านพลังงานและอื่นๆ ให้กลายเป็นโทเค็นคุณภาพสูงอย่างยั่งยืนผ่านโรงงานโทเค็น และส่งออกไปทั่วโลก เพื่อเป็นโรงงานโทเค็นของโลก นี่คือคุณค่าที่ฉันต้องการเห็นจีนมอบให้แก่โลกผ่านปัญญาประดิษฐ์ในปีนี้

จาง เผิง: ผมจะพูดสั้นๆ ทุกคนกำลังมองขึ้นไปที่ท้องฟ้า ผมจะลงมาอยู่กับความเป็นจริง คำสำคัญของผมคือ “พลังการคำนวณ”

เช่นเดียวกับที่กล่าวไปก่อนหน้านี้ เทคโนโลยีและกรอบงานตัวแทนอัจฉริยะทั้งหมดได้เพิ่มความคิดสร้างสรรค์และประสิทธิภาพของคุณขึ้นสิบเท่า แต่เงื่อนไขคือคุณต้องใช้งานได้จริง คุณไม่สามารถตั้งคำถามแล้วปล่อยให้มันคิดนานโดยไม่ให้คำตอบได้ นั่นไม่สามารถยอมรับได้ และด้วยเหตุนี้ ความก้าวหน้าในการวิจัยหลายอย่างและสิ่งที่คุณอยากทำจึงถูกขัดขวาง

สองปีก่อน ฉันจำได้ว่ามีศาสตราจารย์คนหนึ่งพูดในงานประชุม Zhongguancun ว่า: “ไม่มีการ์ด ไม่มีอารมณ์ พูดถึงการ์ดแล้วบาดหมางกัน” ฉันรู้สึกว่าวันนี้เราก็มาถึงจุดเดียวกันอีกแล้ว แต่สถานการณ์ต่างออกไป ตอนนี้เราได้เข้าสู่ระยะการประมวลผลเชิงตรรกะ ความต้องการกำลังระเบิดขึ้น—เพิ่มขึ้นสิบเท่า ร้อยเท่า คุณเพิ่งพูดถึงปริมาณการใช้งานที่เพิ่มขึ้นสิบเท่า แต่ความต้องการจริงๆ อาจสูงถึงร้อยเท่าก็ได้? และยังมีความต้องการอีกมากที่ยังไม่ได้รับการตอบสนอง เราจะจัดการอย่างไร? เรามาช่วยกันคิดวิธีแก้ไขกันเถอะ