หุ้นของ Zhipu AI พุ่งขึ้น 26% หลังเปิดตัว API 400 โทเค็น/วินาที

文 | AIDeepDive

วันนี้ ซือปู้ (02513.HK) ซึ่งเป็นบริษัทแรกในโลกที่เชี่ยวชาญโมเดลขนาดใหญ่ ได้รับแรงซื้ออย่างรุนแรงอีกครั้ง

ราคาพุ่งขึ้นสูงสุดกว่า 30% ระหว่างวัน ปิดที่ 1,282 ดอลลาร์ฮ่องกง เพิ่มขึ้นกว่า 26% ตลอดทั้งวัน มีมูลค่าตลาดถึง 5,715.7 พันล้านดอลลาร์ฮ่องกง ทำสถิติสูงสุดเป็นครั้งที่สอง

โมเดลขนาดใหญ่

สิ่งที่กระตุ้นการพุ่งขึ้นครั้งนี้คือตัวชี้วัดทางเทคนิคเฉพาะเจาะจง: 400 tokens/s

วันที่ 22 พฤษภาคม ซือปู้ได้เปิดตัว API รุ่นความเร็วสูง GLM-5.1 (GLM-5.1-highspeed) สำหรับลูกค้าองค์กรอย่างเป็นทางการ โดยพารามิเตอร์หลักที่สำคัญที่สุดมีเพียงหนึ่งเดียว: ความเร็วในการสร้างผลลัพธ์ของโมเดลถึง 400 โทเค็นต่อวินาที ทำลายขีดจำกัดความเร็วของ API ของผู้ผลิตโมเดลขนาดใหญ่ทั่วโลก

ฉันเคยคิดว่านี่เป็นเพียงการประชาสัมพันธ์ของโมเดลขนาดใหญ่ของจีนอีกครั้ง แต่เมื่อพิจารณารายละเอียดทางเทคนิคอย่างละเอียด ฉันจึงเข้าใจตรรกะเบื้องหลังตลาดทุน

400 tokens/วินาทีหมายถึงอะไร?

โมเดลสามารถสร้างตัวอักษรจีนได้ประมาณ 200 ตัวต่อวินาที ซึ่งเทียบเท่ากับปริมาณการเขียนที่เข้มข้นของนักเขียนมืออาชีพในหนึ่งนาที ถูกบีบอัดให้อยู่ในหนึ่งวินาที

ปริมาณข้อความที่นักสร้างสรรค์ต้องนั่งเขียนต่อเนื่องหลายวัน GLM-5.1 รุ่นความเร็วสูงสามารถจัดส่งให้เสร็จภายใน 1 นาที; งานรีเฟรชระบบที่วิศวกรต้องมุ่งมั่นทำงานเป็นเวลา 3 วัน มันสามารถดำเนินการให้เสร็จในเวลาที่ดื่มกาแฟหนึ่งถ้วย

01 ความเร็ว สำคัญกว่าที่คุณคิด

ความเร็ว เป็นมิติที่มักถูกมองข้ามมากที่สุดในการแข่งขันของโมเดล AI

ในสามปีที่ผ่านมา การแข่งขันอาวุธของโมเดลขนาดใหญ่เน้นที่สองเส้นทาง: ขนาดพารามิเตอร์ (โมเดลใหญ่ขึ้นและฉลาดขึ้น) และการแข่งขันด้านราคา (Token ถูกลงและเข้าถึงได้กว้างขึ้น) “ความเร็ว” ไม่เคยเป็นตัวหลัก

เนื่องจากในอดีต ความเร็วมักจะถูกทำให้เร็วขึ้นโดยการลดพารามิเตอร์ของโมเดล เพื่อเพิ่มความเร็ว จำเป็นต้องใช้โมเดลที่เล็กและเรียบง่ายกว่า ซึ่งจะมีค่าใช้จ่ายในรูปของความสามารถที่ลดลง

ความสำคัญของรุ่นความเร็วสูง GLM-5.1 ครั้งนี้คือ มันสามารถรักษาความสามารถของฐานข้อมูลขนาดเต็มระดับแฟลกชิพ ขณะเดียวกันก็เพิ่มความเร็วขึ้นเป็น 400 tokens/s

ไม่ว่าจะพิจารณาจากโมเดลในประเทศหรือในระดับสากล ความสามารถระดับฟลากชิพและความล่าช้าต่ำสุดสุดขั้ว ได้รับการบรรลุครั้งแรกโดยไม่ต้องยอมลดมาตรฐาน

โมเดลขนาดใหญ่

ทำไมความเร็วจึงสำคัญมาก? เพราะสนามรบหลักของ AI กำลังเกิดการเปลี่ยนแปลงครั้งใหญ่

เมื่อ AI ก้าวเข้าสู่ยุค Agent จาก ChatBot การตอบคำถามไม่ใช่สถานการณ์หลักของ AI อีกต่อไป เพราะ Agent ในการดำเนินงานหนึ่ง任务 มักต้องเรียกใช้งานโมเดลหลายสิบถึงร้อยรอบ: เขียนโค้ด เรียกอินเทอร์เฟซ ค้นหาข้อมูล ใช้เครื่องมือ...

ในโหมดการทำงานนี้ ความล่าช้าระหว่างแต่ละรอบการเรียกใช้งานจะถูกสะสมและขยายอย่างไม่หยุดยั้ง งานที่ต้องใช้การเรียกใช้งาน 50 รอบ หากสามารถประหยัดเวลาได้ 1 วินาทีต่อรอบ ทั้งหมดจะเร็วขึ้นเกือบหนึ่งนาที สำหรับผู้ช่วยโปรแกรม AI การโต้ตอบด้วยเสียง และระบบการตัดสินใจทางธุรกิจ ช่องว่างเช่นนี้สามารถตัดสินความอยู่รอดได้

ในระดับที่ลึกกว่า การให้เหตุผลอย่างรวดเร็วภายในงบเวลาที่กำหนดหมายความว่าโมเดลสามารถดำเนินเส้นทางการให้เหตุผลที่ลึกกว่า และทำการตรวจสอบตนเองได้มากขึ้น ความเร็วกำลังเปลี่ยนจากตัวชี้วัดของระบบมาเป็นขีดจำกัดของปัญญาเอง

02 ความเร็วเรื่องนี้ยากแค่ไหน?

ตอนนี้อุตสาหกรรมมีระดับความเร็วอยู่ที่เท่าใด?

ในกลุ่มผู้ผลิตชั้นนำ GPT-4o ของ OpenAI อยู่ที่ประมาณ 100–150 tokens/s, ซีรีส์ Claude Sonnet ของ Anthropic อยู่ที่ประมาณ 80–120 tokens/s และ API ของโมเดลแฟลกชิพหลักในประเทศส่วนใหญ่อยู่ในช่วง 50–100 tokens/s 400 tokens/s ประมาณสามถึงห้าเท่าของระดับเฉลี่ยของอุตสาหกรรม

ที่สำคัญกว่านั้น ช่องว่างนี้ไม่สามารถปิดให้หายได้เพียงแค่เพิ่มพลังการคำนวณ

เซิร์ฟเวอร์ที่ติดตั้งการ์ดแสดงผล H200 จำนวน 8 ตัว ทฤษฎีแล้วสามารถถ่ายโอนข้อมูลได้สูงถึง 38 TB ต่อวินาที สำหรับ GLM-5.1 การสร้าง token หนึ่งครั้งต้องอ่านพารามิเตอร์การกระตุ้นประมาณ 42 GB ตามการคำนวณเชิงทฤษฎีบริสุทธิ์ ควรสามารถเข้าใกล้ 1000 tokens/s

แต่ระบบจริงมักจะประมวลผลได้เพียงหลายสิบ tokens/s เท่านั้น

โมเดลขนาดใหญ่

นี่คือช่องว่างระดับขนาดใหญ่ GPU ไม่ได้ช้าเกินไป แต่ใช้เวลาจำนวนมากไปกับการรอ ว่างเปล่า และการจัดสรรงานที่ไม่มีประสิทธิภาพ

ZhiPu ครั้งนี้ได้สร้างนวัตกรรมพร้อมกันในสามระดับ ได้แก่ เครื่องยนต์การให้เหตุผล กลยุทธ์แบบขนาน และสถาปัตยกรรมเครือข่าย ซึ่งนำไปสู่การพัฒนาความเร็วสุดท้าย

โมเดลขนาดใหญ่

03 三层เทคโนโลยีซ้อนทับกัน ใกล้ถึงขีดจำกัดทางกายภาพของฮาร์ดแวร์

โมเดลขนาดใหญ่ทำงานอย่างนี้เอง: โมเดลขนาดใหญ่จะถูกแบ่งออกเป็นโอเปอเรเตอร์แต่ละตัวที่แยกจากกัน แต่ละโอเปอเรเตอร์จะเริ่มต้นหน่วยประมวลผล (kernel) หนึ่งครั้ง หลังจากคำนวณเสร็จก็จะหยุดและรอการซิงโครไนซ์ ก่อนจะเริ่มต้นโอเปอเรเตอร์ถัดไป

ในขั้นตอนการฝึกอบรม การคำนวณแต่ละครั้งใช้เวลาหลายวินาทีจนถึงหลายนาที ค่าใช้จ่ายในการเริ่มต้นและรอคอยจึงสามารถมองข้ามได้ แต่ในขั้นตอนการอนุมาน การสร้างโทเค็นหนึ่งตัวอาจใช้เวลาเพียงไม่กี่สิบไมโครวินาทีสำหรับขั้นตอนสำคัญบางอย่าง ค่าใช้จ่ายในการเริ่มต้นและรอคอยจึงกลายเป็นสิ่งที่ไม่สามารถมองข้ามได้

แนวคิดหลักของ TileRT: คอมไพล์โมเดลทั้งหมดให้เป็นเครื่องจักรที่ทำงานต่อเนื่อง khởi độngเพียงครั้งเดียว ไม่เคยหยุด

TileRT ได้ขยายโครงสร้างการคำนวณทั้งหมดของโมเดลให้เป็นสายการผลิตต่อเนื่องในขั้นตอนการคอมไพล์โค้ด ทำให้ GPU ทำงานด้วยความเร็วสูงอย่างต่อเนื่องในระหว่างการดำเนินงาน โดยการคำนวณ การย้ายข้อมูล และการสื่อสารดำเนินไปพร้อมกัน ผลลัพธ์ชั่วคราวจะถูกเก็บไว้ภายในแคชความเร็วสูงของ GPU โดยไม่ต้องเขียนกลับไปยังหน่วยความจำ GPU ที่ช้าแล้วอ่านใหม่อีก

โมเดลขนาดใหญ่

มีรายละเอียดการออกแบบที่สำคัญอย่างหนึ่ง: การเชี่ยวชาญ Warp

เพื่อเข้าใจ Warp จำเป็นต้องเข้าใจวิธีการทำงานของ GPU ก่อน ความแตกต่างที่สำคัญที่สุดระหว่าง GPU กับ CPU คือ GPU มีหน่วยคำนวณที่ค่อนข้างเรียบง่ายนับพันๆ หน่วย ซึ่งหน่วยเหล่านี้จะถูกจัดกลุ่มเป็นชุดละ 32 หน่วย ชุดนี้เรียกว่า Warp

หน่วย 32 หน่วยใน Warp เดียวกันต้องดำเนินการอย่างสม่ำเสมอและดำเนินคำสั่งเดียวกัน เหมือนกับหมู่ทหารหนึ่งหมู่ ผู้บังคับบัญชาสั่งให้ทุกคนทำท่าเดียวกันพร้อมกัน

ในกรอบแบบดั้งเดิม ทุก Warp จะดำเนินการตามลำดับคำสั่งเดียวกัน; TileRT ทำให้กลุ่ม Warp ต่างๆ รับผิดชอบหน้าที่ที่แตกต่างกัน: บางกลุ่มรับผิดชอบการย้ายข้อมูลชุดถัดไปเข้ามาล่วงหน้า บางกลุ่มรับผิดชอบการคำนวณทางคณิตศาสตร์ และบางกลุ่มรับผิดชอบการสื่อสารกับ GPU อื่นๆ สามกลุ่มทำงานพร้อมกันอย่างต่อเนื่องและประสานงานกันโดยไม่ต้องรอซึ่งกันและกัน

เหมือนกับการเปลี่ยนจาก "พนักงานคนหนึ่งยกอิฐ สร้างผนัง และตรวจสอบทีละขั้นตอน" เป็น "ทีมยกอิฐ ทีมสร้างผนัง และทีมตรวจสอบทำงานพร้อมกัน"

ประสิทธิภาพภายในการ์ดเดียวได้รับการแก้ไขแล้ว แต่การประมวลผลแบบขนานหลายการ์ดกลับเผชิญกับความท้าทายใหม่

แนวทางที่ใช้กันทั่วไปในอุตสาหกรรมคือการขนานแบบเทนเซอร์ (Tensor Parallel): แบ่งเมทริกซ์น้ำหนักของโมเดลออกเป็นหลายส่วน แต่ละ GPU รับผิดชอบหนึ่งส่วน หลังจากคำนวณเสร็จแล้วจะรวมผลลัพธ์ผ่านการเชื่อมต่อความเร็วสูง (NVLink)

แผนนี้มีประสิทธิภาพดีมากสำหรับการคำนวณแบบหนาแน่นที่เป็นระเบียบ เช่น การคูณเมทริกซ์ และเป็นมาตรฐานสำหรับการใช้งานหลายการ์ดในเฟรมเวิร์กการอนุมานโมเดลขนาดใหญ่ทั้งหมดในปัจจุบัน

GLM-5.1 ใช้ **MLA (Multi-head Latent Attention) ซึ่งเป็นกลไกการให้ความสนใจที่ DeepSeek คิดค้นขึ้น

กลไกการให้ความสำคัญแบบดั้งเดิมต้องเก็บข้อมูลกลางจำนวนมากที่คำนวณในแต่ละขั้นตอน (KV Cache) ไว้ทั้งหมดเพื่อใช้งานในภายหลัง ซึ่งใช้หน่วยความจำ GPU อย่างมาก; วิธีการของ MLA คือการบีบอัดข้อมูลกลางเหล่านี้ให้เป็น "เวกเตอร์เชิงแฝง" ที่กระชับก่อนจัดเก็บ และเมื่อต้องใช้งานจะขยายและคืนค่ากลับมา ทำให้ความต้องการหน่วยความจำลดลงอย่างมาก และเพิ่มประสิทธิภาพในการให้บริการ

แต่ในกระบวนการคำนวณของ MLA มีขั้นตอนพิเศษหนึ่งประการ: ต้องสร้างดัชนีแบบบางส่วนจากข้อมูลประวัติจำนวนมาก: เหมือนกับการค้นหาหนังสือไม่กี่เล่มที่เกี่ยวข้องที่สุดในห้องสมุดขนาดใหญ่ ก่อนจะอ่านอย่างละเอียดเฉพาะหนังสือเหล่านั้น

ขั้นตอน "ค้นหาหนังสือ" ขึ้นอยู่กับข้อมูลทั่วทั้งระบบ จึงไม่เหมาะกับการแบ่งโหลดหลายการ์ด; ขั้นตอน "อ่านอย่างละเอียด" ต่างหากที่เหมาะกับการคำนวณแบบขนานหลายการ์ด หากบังคับให้ GPU ทั้ง 8 ตัวมีส่วนร่วมในขั้นตอน "ค้นหาหนังสือ" เวลาจำนวนมากจะสูญเปล่าไปกับการซิงโครไนซ์และการสื่อสารระหว่าง GPU

วิธีแก้ไขของ TileRT คือให้ GPU ทำงานแบบไม่เหมือนกัน: GPU 0 ทำหน้าที่เป็น “ผู้ค้นหาในห้องสมุด” รับผิดชอบดัชนีที่กระจายและการตัดสินใจเส้นทาง; GPU 1–7 ทำหน้าที่เป็น “ผู้วิเคราะห์เชิงลึก” รับผิดชอบการคำนวณความสนใจหนาแน่นและการดำเนินการเมทริกซ์ ผู้ปฏิบัติงานทั้งสองประเภทใช้กลยุทธ์การขนานที่เหมาะสมกับตนเองเพื่อร่วมกันดำเนินการชั้นการคำนวณทั้งหมด

โมเดลขนาดใหญ่

ต่อมา TileRT ได้ผสานการดำเนินการสื่อสารระหว่าง GPU เข้าไปในสายการผลิตโดยตรง แทนที่จะเป็นขั้นตอนแยกต่างหาก ภายนอกดูเหมือนว่าระบบ 8 หน่วย GPU ทั้งหมดสามารถเสร็จสิ้นการคำนวณความสนใจหนึ่งชั้นด้วยการเรียกใช้งานเคอร์เนลเพียงครั้งเดียว โดยการสื่อสารและการคำนวณภายในจะถูกดำเนินการอย่างไร้รอยต่อภายในสายการผลิตที่ต่อเนื่อง

สองชั้นข้างต้นแก้ปัญหาในขอบเขตของเครื่องเดียว เมื่อคลัสเตอร์ขยายเป็นร้อยถึงพัน GPU การส่งข้อมูลระหว่าง GPU เองก็กลายเป็นขีดจำกัดใหม่

แนวทางที่ใช้กันทั่วอุตสาหกรรมคือ ROFT (Rail-Optimized Fat-Tree) ซึ่งเป็นแนวทางที่ NVIDIA แนะนำอย่างเป็นทางการและเป็นมาตรฐานสากลในอุตสาหกรรม

โครงสร้างของมันเป็นต้นไม้: เซิร์ฟเวอร์เชื่อมต่อกับสวิตช์ Leaf ระดับล่าง (ชั้นการเข้าถึง ซึ่งเชื่อมต่อโดยตรงกับเซิร์ฟเวอร์) จากนั้น Leaf จะเชื่อมต่อขึ้นไปยังสวิตช์ Spine (ชั้นหลัก รับผิดชอบการเชื่อมต่อระหว่าง Leaf ต่างๆ เหมือนจุดเชื่อมต่อทางด่วน) ข้อมูลที่ส่งระหว่าง GPU สองตัวต้อง “ขึ้นไปยัง Spine ก่อน แล้วจึงลงมาที่ Leaf เป้าหมาย” อย่างน้อยผ่าน 3 ขั้นตอน

เพื่อหลีกเลี่ยงการจราจรที่รวมตัวอยู่บนเส้นทางบางเส้นเพียงไม่กี่เส้น สถาปัตยกรรมนี้พึ่งพาอัลกอริทึม ECMP เพื่อกระจายข้อมูลไปยังหลายเส้นทาง และทำงานได้ดีภายใต้เงื่อนไขที่การจราจรบนอินเทอร์เน็ตมีการกระจายอย่าง "สม่ำเสมอทางสถิติ"

แต่ปริมาณการจราจรในสถานการณ์การให้เหตุผลนั้นไม่สม่ำเสมอเลย ความยาวของบริบทระหว่างคำขอต่างๆ สามารถแตกต่างกันได้ถึงหลายสิบเท่า ทิศทางการส่งข้อมูล KV Cache ระหว่าง GPU แทบจะสุ่ม โดยสวิตช์ Leaf บางตัวจะกลายเป็นจุดร้อนเป็นระยะๆ ทำให้กลไกการย้อนแรงดันถูกกระตุ้น ซึ่งทำให้การอุดตันแพร่กระจายจากจุดท้องถิ่นไปยังทั้งระบบ ปัญหาการอุดตันนี้ไม่สามารถแก้ไขได้ด้วยการปรับแต่งโปรโตคอล แต่เป็นผลผลิตของโครงสร้างเครือข่ายโดยตรง

โมเดลขนาดใหญ่

การแตกหักพื้นฐานของ ZCube: ทำให้การจราจรติดขัดประเภทนี้ไม่สามารถเกิดขึ้นได้ในระดับสถาปัตยกรรม

การออกแบบหลักแบ่งเป็นสองขั้นตอน:

ขั้นตอนที่หนึ่ง: ยกเลิกชั้น Spine ให้เป็นเครือข่ายแบบแบน แบ่งสวิตช์ Leaf ทั้งหมดตามเลขคี่และเลขคู่เป็นสองกลุ่ม โดยให้สองกลุ่มนี้เชื่อมต่อกันอย่างสมบูรณ์ สวิตช์เลขคี่ใดๆ จะเชื่อมต่อกับสวิตช์เลขคู่ทั้งหมด และในทางกลับกัน ระหว่าง GPU สองตัวใดๆ จะผ่านสวิตช์ได้สูงสุดสองตัวเท่านั้น ลดจำนวนการกระโดดจาก 3 ครั้ง เหลือ 2 ครั้ง

โมเดลขนาดใหญ่

ขั้นที่สอง ซึ่งเป็นจุดที่ซับซ้อนที่สุด: การ์ดกราฟิกแต่ละตัวเชื่อมต่อกับสวิตช์สองชุด โดยใช้วิธีที่ต่างกันอย่างสิ้นเชิง โครงสร้างพิเศษนี้สร้างคุณสมบัติทางคณิตศาสตร์ที่สำคัญ: ระหว่างการ์ดกราฟิกใดๆ สองตัวในเครือข่ายทั้งหมด จะมีเส้นทางที่ดีที่สุดเพียงเส้นทางเดียวเท่านั้น

โมเดลขนาดใหญ่

"เส้นทางเดียว" ช่วยขจัดรากฐานของปัญหาการจราจรติดขัด สถาปัตยกรรมแบบดั้งเดิมมักเกิดจุดร้อน เพราะมีหลายเส้นทางให้เลือก ถ้าอัลกอริทึมการกระจายโหลดเลือกผิด จะทำให้การจราจรสะสมที่จุดเดียว ZCube ออกแบบมาเพื่อขจัดการ "เลือก" ทั้งหมด: ไม่จำเป็นต้องกระจายโหลด เพราะไม่มีทางแยกเลย

ในสภาพฮาร์ดแวร์เดียวกัน คำนวณบัญชีอย่างไร?

หลังจากที่ Zhipu อัปเกรดคลัสเตอร์การผลิต GLM-5.1 จาก ROFT แบบดั้งเดิมเป็น ZCube ได้ตัวเลขสามตัว:

สรุปคือ ด้วยการลงทุน GPU เดียวกัน คลัสเตอร์สามารถให้บริการผู้ใช้ได้มากขึ้น; ด้วยข้อกำหนดด้านประสบการณ์ผู้ใช้เดียวกัน คลัสเตอร์สามารถซื้ออุปกรณ์เครือข่ายน้อยลงหนึ่งในสาม ประสิทธิภาพและต้นทุนจึงได้รับการปรับปรุงในทั้งสองด้าน

โมเดลขนาดใหญ่

โดยเฉพาะอย่างยิ่ง การเพิ่มขึ้นของปริมาณการผ่านระบบ 15% เท่ากับได้กำลังการประมวลผลเพิ่มเติม 15% โดยไม่ต้องเสียค่าใช้จ่าย ในกรณีที่จำนวน GPU ไม่เปลี่ยนแปลง การเพิ่มขึ้นของปริมาณการผ่านระบบ 15% เทียบเท่ากับต้นทุนฮาร์ดแวร์ต่อโทเค็นลดลงประมาณ 13% หรือกล่าวอีกนัยหนึ่งคือสามารถให้บริการผู้ใช้เพิ่มขึ้น 15% ในต้นทุนเดียวกัน

หากคลัสเตอร์มี GPU 1,000 ตัว การอัปเกรดครั้งนี้เทียบเท่ากับการเพิ่มกำลังการผลิตได้ 150 ตัว โดยอ้างอิงจากราคาตลาดปัจจุบันของ GPU สำหรับการประมวลผลระดับสูง นี่คือมูลค่าพลังการคำนวณในระดับหลายพันล้านหยวน

ความล่าช้าที่ปลายลดลง 40.6% ซึ่งแก้ปัญหาความเสถียร ไม่ใช่ความเร็วเฉลี่ย สำหรับงานของ Agent ที่ต้องใช้การเรียก 50 รอบ หากความล่าช้าที่ปลายลดลงวินาทีละ 1 วินาที เวลาในการเสร็จสิ้นที่แย่ที่สุดของงานทั้งหมดจะลดลงเกือบหนึ่งนาที

ต้นทุนลดลงหนึ่งในสาม ซึ่งเป็นการประหยัดโดยตรงในระดับการก่อสร้าง ZCube ยกเลิกชั้น Spine ทำให้จำนวนสวิตช์และโมดูลแสงที่ต้องใช้ลดลงหนึ่งในสามในขนาดคลัสเตอร์เดียวกัน ตามการคำนวณของ Zhizhang ในคลัสเตอร์ขนาดหมื่นการ์ด การประหยัดเพียงข้อนี้สามารถลดต้นทุนได้ประมาณ 210 ล้านถึง 640 ล้านหยวน

ในระยะยาว ตามที่ขนาดของคลัสเตอร์เพิ่มขึ้นแบบเลขชี้กำลัง ความซับซ้อนของการสื่อสารระหว่าง GPU จะเพิ่มขึ้นหลายเท่า ความน่าจะเป็นและผลกระทบของความหนาแน่นก็จะเพิ่มขึ้นพร้อมกัน ซึ่งหมายความว่าคุณค่าของการนวัตกรรมระดับสถาปัตยกรรมเช่น ZCube จะปรากฏชัดเจนยิ่งขึ้นเร็วขึ้นตามการขยายตัวอย่างต่อเนื่องของคลัสเตอร์การให้บริการแบบอ้างอิง ผลประโยชน์จากคลัสเตอร์ระดับหมื่น GPU วันพรุ่งนี้อาจสูงกว่า 15% ที่เห็นในวันนี้

05 สรุปท้าย

หลังจากอ่านรายงานเทคนิคของ Zhipu ฉันกำลังคิดว่า มันจะสร้างคลื่นกระแทกให้กับอุตสาหกรรมเหมือนที่ DeepSeek เพิ่งปรากฏตัวขึ้นมาไหม

พิจารณาอย่างรอบคอบ ผลกระทบของทั้งสองอย่างดูเหมือนอยู่ในด้านที่ต่างกัน เมื่อ DeepSeek เปิดตัว มันพิสูจน์ว่าปัญญาเดียวกันสามารถบรรลุได้ด้วยพลังการประมวลผลน้อยกว่ามาก ตลาดกังวลว่า “ความต้องการ GPU จะลดลง” จึงทำให้มูลค่าตลาดของ NVIDIA หายไปเกือบ 6 แสนล้านดอลลาร์สหรัฐในวันนั้น

แต่วันนี้หลักฐานทางเทคนิคของ Zhipu แสดงให้เห็นว่าด้วยพลังการประมวลผลเดียวกัน สามารถผลิตได้มากขึ้น มันกำลังรีโครงสร้างว่า "โครงสร้างพื้นฐานอื่นๆ นอกเหนือจาก GPU ควรมีลักษณะเป็นอย่างไร"

ในระยะสั้น NVIDIA จะไม่ได้รับผลกระทบ แต่ในระยะยาว รั้วป้องกันที่ประกอบด้วย GPU + NVLink interconnect + InfiniBand network + CUDA software ecosystem กำลังถูกขุดราก โดยเฉพาะ InfiniBand ที่ NVIDIA ซื้อจาก Mellanox เมื่อปี 2019 ด้วยราคา 6.9 พันล้านดอลลาร์สหรัฐ ค่าตอบแทนด้านเครือข่ายของ NVIDIA จะถูกลดลงอย่างมาก

นอกจากนี้ ZCube ได้ยกเลิกชั้น Spine แต่กลับต้องการความหนาแน่นพอร์ตที่สูงขึ้นสำหรับสวิตช์ Leaf ผู้ได้รับประโยชน์คือผู้ผลิตที่สามารถผลิตสวิตช์ Leaf ความหนาแน่นสูงและมีพอร์ตจำนวนมาก (Ruijie, Arista, Broadcom switching chips) ส่วนผู้ที่ได้รับผลกระทบคือผู้ผลิตที่พึ่งพาสวิตช์ระดับสูงของชั้น Spine เพื่อเรียกค่าพรีเมียม

ในปี 2025 Celestica และ NVIDIA ครองส่วนแบ่งตลาดสวิตช์เครือข่ายหลัง AI ประมาณ 50% โครงสร้างนี้จะเผชิญกับการจัดเรียงใหม่หลังจากที่รูปแบบ ZCube แพร่กระจาย

โมดูลแสงเป็นทิศทางที่ได้รับประโยชน์โดยตรงที่สุดจากการเปลี่ยนแปลงของห่วงโซ่อุปทานครั้งนี้ ซึ่งมีตรรกะชัดเจนมาก สำหรับผู้ผลิตโมดูลแสงในประเทศจีน (เช่น InnoLight, Tech-Fu Communications ฯลฯ) นี่คือปัจจัยเชิงโครงสร้างที่ดี: ไม่เพียงแต่ปริมาณรวมจะเพิ่มขึ้น แต่ความต้องการในโมดูลแสงความเร็วสูง (800G, 1.6T) ภายใต้รูปแบบ ZCube ก็มีความเข้มข้นและเร่งด่วนมากกว่าโครงสร้างแบบดั้งเดิม

ไม่ว่าจะเป็นสถาปัตยกรรม TileRT หรือ ZCube นี่คือเครื่องมือการให้บริการแบบซอฟต์แวร์บริสุทธิ์ที่ทำงานบน GPU มาตรฐาน โดยไม่พึ่งคุณสมบัติฮาร์ดแวร์แบบเป็นของเอกสิทธิ์ของ NVIDIA 理论上สามารถนำพาไปใช้กับชิปภายในประเทศ เช่น Huawei Ascend ได้ หากแนวทางนี้ประสบความสำเร็จ จะช่วยลดอุปสรรคด้านสแต็กซอฟต์แวร์สำหรับชิป AI ภายในประเทศในบริบทของการให้บริการอย่างมาก

นี่อาจเป็นความหมายที่ยิ่งใหญ่กว่าที่อยู่เบื้องหลังนวัตกรรมทางเทคโนโลยีนี้