บทความนี้จะวิเคราะห์อย่างลึกซึ้งถึงสถานการณ์การจัดวางชิป AI ที่บริษัทชั้นนำทั่วโลกพัฒนาขึ้นเอง โดยอ้างอิงจากตรรกะทางเศรษฐศาสตร์และเทคโนโลยีพื้นฐาน เพื่อแสดงให้เห็นว่าทำไมการลงทุนอย่างหนักหน่วงในการพัฒนาชิปของตนเองจึงเป็นทางเลือกที่หลีกเลี่ยงไม่ได้สำหรับยักษ์ใหญ่ด้านเทคโนโลยี และทำการคาดการณ์ถึงความท้าทายที่เผชิญและผลลัพธ์สุดท้ายของโครงสร้างพลังการคำนวณในอนาคต

ผู้เขียนบทความ แหล่งที่มา: 0x9999in1, ME News

บทนำ

ตั้งแต่การระเบิดของ AI แบบสร้างเนื้อหาในปลายปี 2022 อุตสาหกรรมเทคโนโลยีทั่วโลกได้เข้าสู่การแข่งขันอาวุธรอบใหม่ที่มีโมเดลขนาดใหญ่เป็นศูนย์กลาง ในการแข่งขันนี้ กำลังการประมวลผลได้กลายเป็นโครงสร้างพื้นฐานพื้นฐานที่กำหนดความสำเร็จหรือความล้มเหลว นิวเดีย (Nvidia) ได้รับผลกำไรที่มากที่สุดจากคลื่น AI ครั้งนี้ โดยอาศัยการสะสมระยะยาวในด้านหน่วยประมวลผลกราฟิกทั่วไป (GPU) และอำนาจการครอบงำอย่างสมบูรณ์ของระบบนิเวศซอฟต์แวร์ CUDA อย่างไรก็ตาม กำไรขั้นต้นที่สูงกว่า 70% รวมถึงกำลังการผลิตที่ไม่เพียงพอต่อความต้องการ ทำให้ผู้ให้บริการคลาวด์ทั่วโลก (CSP) และยักษ์ใหญ่ด้านเทคโนโลยี AI ต้องเผชิญกับความวิตกกังวลเกี่ยวกับกำลังการประมวลผล ซึ่งเหมือนกับการ “ทำงานให้กับนิวเดีย”

ในบริบทนี้ “ME News Think Tank” สังเกตว่า บริษัทเทคโนโลยีชั้นนำทั่วโลกกำลังเร่งขยายจุดเน้นเชิงกลยุทธ์ไปสู่ฮาร์ดแวร์ระดับพื้นฐาน พร้อมกับก่อให้เกิดคลื่นลูกใหญ่ครั้งประวัติศาสตร์ในการพัฒนาชิป AI ของตนเอง ตั้งแต่บริษัทในอเมริกาเหนืออย่าง Google, Amazon, Microsoft, Meta ไปจนถึงบริษัทจีนอย่าง Huawei, Baidu, Alibaba, ByteDance การผลิตชิปของบริษัทขนาดใหญ่ได้เปลี่ยนจากขั้นตอน “ทดลอง” ในระยะเริ่มต้น เป็นกลยุทธ์หลักที่มีผลต่อการมีชีวิตหรือการล้มละลายขององค์กร บทความนี้จะวิเคราะห์อย่างลึกซึ้งถึงสถานการณ์ปัจจุบันของการพัฒนาชิป AI ของบริษัทขนาดใหญ่ทั่วโลก โดยอ้างอิงจากตรรกะทางเศรษฐศาสตร์และเทคโนโลยีระดับพื้นฐาน เพื่อแสดงให้เห็นว่าทำไมการลงทุนอย่างหนักหน่วงในการพัฒนาชิปของตนเองจึงเป็นทางเลือกที่หลีกเลี่ยงไม่ได้สำหรับยักษ์ใหญ่ด้านเทคโนโลยี และทำการคาดการณ์ถึงความท้าทายที่พวกเขาเผชิญ รวมถึงรูปแบบพลังการประมวลผลในอนาคต

สถานการณ์ปัจจุบันในการพัฒนาชิป AI ด้วยตนเองของผู้นำเทคโนโลยีระดับโลก

ปัจจุบัน ชิป AI ที่บริษัทขนาดใหญ่ทั่วโลกพัฒนาขึ้นเองมุ่งเน้นที่คลาวด์ (ศูนย์ข้อมูล) โดยแบ่งเป็นสองสถานการณ์หลัก ได้แก่ การฝึกฝน (Training) และการอนุมาน (Inference) ต่างจากกลยุทธ์ของ NVIDIA ที่มุ่งเน้นความเป็นสากล บริษัทขนาดใหญ่ส่วนใหญ่ใช้สถาปัตยกรรมวงจรรวมเฉพาะทาง (ASIC) เพื่อแลกเปลี่ยนความเป็นสากลบางส่วน เพื่อให้ได้อัตราส่วนประสิทธิภาพต่อการใช้พลังงานสูงสุดในสถานการณ์ธุรกิจภายในที่เฉพาะเจาะจง

การครองตลาดสามรายหลักของผู้ให้บริการคลาวด์ในอเมริกาเหนือและผู้พิชิตตลาดรายใหม่

ผู้ให้บริการคลาวด์รายใหญ่ของอเมริกาเหนือทั้งสี่ราย (四大Hyperscalers) มีความเร็วในการพัฒนาชิปของตนเองที่ต่างกัน แต่ตอนนี้ได้เข้าร่วมอย่างเต็มตัวและสร้าง “กองทุนป้องกันความเสี่ยง” ต่อการพึ่งพาพลังการประมวลผลของ NVIDIA

กูเกิล (Google): ผู้บุกเบิกและมาตรฐานที่แท้จริงของเส้นทางการพัฒนาด้วยตนเอง

Google เป็นบริษัทยักษ์รายแรกของโลกที่ตระหนักถึงความต้องการใหม่ๆ ของฮาร์ดแวร์พื้นฐานที่เกิดจากการเรียนรู้เชิงลึก ตั้งแต่ปี 2015 Google ได้ติดตั้งหน่วยประมวลผลเทนเซอร์รุ่นแรก (TPU) ภายในองค์กร หลังจากผ่านการพัฒนาอย่างต่อเนื่องใกล้เคียงสิบปี ปัจจุบัน TPU ได้พัฒนาไปถึงรุ่นที่หก (Trillium)

ข้อได้เปรียบของกูเกิลอยู่ที่ระบบนิเวศแบบปิดของมัน: ตั้งแต่ฮาร์ดแวร์ TPU ระดับพื้นฐาน ไปจนถึงตัวคอมไพเลอร์ XLA และเฟรมเวิร์ก JAX ระดับกลาง และสุดท้ายคือโมเดลขนาดใหญ่ Gemini ระดับบน การประสานงานระหว่างซอฟต์แวร์และฮาร์ดแวร์แบบครบวงจรนี้ทำให้กูเกิลสามารถฝึกโมเดลขนาดใหญ่แบบมัลติโมดัลชั้นนำของโลกได้ โดยไม่ต้องพึ่งพาคลัสเตอร์ GPU ของ NVIDIA การปรับปรุงอย่างมีนัยสำคัญในแบนด์วิดธ์การเชื่อมต่อและหน่วยความจำแบนด์วิดธ์สูง (HBM) ของ TPU v5p และ Trillium แสดงให้เห็นว่ากูเกิลมีความสามารถในการจัดการเครือข่ายคลัสเตอร์ขนาดใหญ่ยิ่งอย่างเทียบเท่า NVLink ของ NVIDIA

Amazon (AWS): ขับเคลื่อนด้วยต้นทุนและสิทธิ์ในการเลือกของลูกค้า

ประวัติการพัฒนาชิปของ AWS เริ่มต้นขึ้นในปี 2015 จากการซื้อ Annapurna Labs ในด้าน AI AWS ได้วางแผนผลิตภัณฑ์สองสายหลักคือ Trainium (เน้นการฝึกอบรม) และ Inferentia (เน้นการอนุมาน) กลยุทธ์ของ AWS มีลักษณะเชิงปฏิบัติอย่างมาก: ไม่ได้พยายามแทนที่ GPU ด้วยชิปที่พัฒนาเองทั้งหมด แต่ให้ตัวเลือกพลังการประมวลผลที่คุ้มค่าแก่ผู้เช่าคลาวด์ของ AWS ตามข้อมูลจาก AWS การใช้ชิป Inferentia2 สำหรับการอนุมานแบบโมเดลขนาดใหญ่ มีประสิทธิภาพต่อวัตต์สูงกว่าอินสแตนซ์ Amazon EC2 รุ่นเดียวกันถึง 50%

ไมโครซอฟต์ (Microsoft) กับเมตา: จากการจ่ายเงินอย่างเฉยๆ ไปสู่การสร้างการเปลี่ยนแปลงอย่างแข็งขัน

ไมโครซอฟต์และเมตาเป็นผู้ซื้อ H100/A100 ของ NVIDIA รายใหญ่ที่สุดก่อนหน้านี้ เพื่อสนับสนุนการฝึกอบรมของ OpenAI และธุรกิจ Copilot ของตนเอง ไมโครซอฟต์ได้เปิดตัวชิปเร่งความเร็ว AI ที่พัฒนาขึ้นเอง Azure Maia 100 เมื่อปลายปี 2023 ชิปนี้ใช้กระบวนการ 5nm ของ TSMC และออกแบบมาเฉพาะสำหรับการฝึกอบรมและการอนุมานบนคลาวด์

เส้นทางของ Meta สอดคล้องอย่างมากกับธุรกิจของตนเอง ชิป MTIA (Meta Training and Inference Accelerator) ที่เปิดตัวนั้นถูกออกแบบมาโดยเฉพาะสำหรับโมเดลการแนะนำการเรียนรู้เชิงลึก (DLRM) เพื่อเพิ่มประสิทธิภาพการส่งโฆษณาบน Facebook และ Instagram พร้อมกับการระเบิดของโมเดลขนาดใหญ่แบบเปิดแหล่งที่มา Llama ชิป MTIA รุ่นใหม่ได้เพิ่มความสามารถในการสนับสนุนการอนุมานแบบสร้างสรรค์อย่างมาก เพื่อลดต้นทุนการอนุมานที่สูงลิ่วจากการเรียกใช้งานหลายพันล้านครั้ง

การแทนที่ภายในประเทศและการพัฒนาระบบนิเวศโดยบริษัทขนาดใหญ่ของจีน

ในขณะที่บริษัทขนาดใหญ่ของอเมริกาเหนือมุ่งเน้นที่ “ลดต้นทุนและเพิ่มประสิทธิภาพ” บริษัทเทคโนโลยีรายใหญ่ของจีนภายใต้บริบทของการควบคุมการส่งออกชิป AI ระดับสูงจากสหรัฐอเมริกา ได้พัฒนาชิป AI ด้วยตนเองซึ่งมีลักษณะเชิงยุทธศาสตร์ในด้าน “การป้องกันขั้นต่ำ” และ “ความปลอดภัยของห่วงโซ่อุปทาน”

ฮัวเว่ย: กำลังหลักของพลังการประมวลผลภายในประเทศ

ชุด Huawei Ascend เป็นผลิตภัณฑ์เดียวในประเทศจีนที่สามารถแทนที่ NVIDIA A100/H20 ได้ในการฝึกอบรมแบบคลัสเตอร์ขนาดใหญ่พิเศษ Ascend 910B ใช้สถาปัตยกรรม Da Vinci ผ่านชั้น CANN (Computational Architecture for Neural Networks) ที่ผูกพันอย่างลึกซึ้งกับเฟรมเวิร์กภายในประเทศ เช่น MindSpore ปัจจุบัน มากกว่าครึ่งหนึ่งของโมเดลขนาดใหญ่ชั้นนำในประเทศจีน (เช่น Xinghuo ของ iFlytek และ Zhipu AI) ได้เสร็จสิ้นหรือกำลังดำเนินการปรับให้เข้ากับฐานพลังการคำนวณของ Ascend

แนวทางที่เป็นรูปธรรมของบริษัทอินเทอร์เน็ตขนาดใหญ่: Baidu, Alibaba และ ByteDance

Kunlun芯ของ Baidu เป็นหนึ่งในชิป AI ที่พัฒนาขึ้นเองโดยบริษัทอินเทอร์เน็ตรายใหญ่ของจีนที่นำลงสู่การใช้งานจริงตั้งแต่แรกเริ่ม ปัจจุบันได้รับการอัปเดตเป็นรุ่นที่สามและรองรับการให้บริการและการปรับแต่งบางส่วนของโมเดล Wenxin Yiyan อย่างเต็มรูปแบบ ส่วน Alibaba Pingtouge Semiconductor ได้เปิดตัว Hangguang 800 ซึ่งมุ่งเน้นไปที่สถานการณ์การให้บริการแบบความถี่สูงภายใน Alibaba เช่น การค้นหาอีคอมเมิร์ซและการรับรู้ภาพ ขณะที่ ByteDance ซึ่งเป็นบริษัทที่มีความต้องการด้านพลังการประมวลผลอัลกอริธึมการแนะนำมากที่สุดในโลก แม้จะเข้าสู่ตลาดช้ากว่า แต่กำลังร่วมมืออย่างแข็งขันกับผู้ผลิตและผู้ออกแบบชิปชั้นนำอย่าง TSMC และ Broadcom เพื่อพัฒนาชิป ASIC แบบเฉพาะทางสำหรับโมเดล DouBao และการใช้งานการให้บริการรายวันจำนวนมากของ TikTok/抖音

ตารางที่ 1: ภาพรวมการจัดวางชิป AI ของผู้นำเทคโนโลยีระดับโลก

การวิเคราะห์เชิงลึก: เหตุใดบริษัทขนาดใหญ่จึงต้องลงทุนอย่างหนักในการพัฒนาชิป AI ของตนเอง?

การพัฒนาชิป AI ด้วยกระบวนการขั้นสูง (เช่น 5nm/3nm) มีต้นทุนการผลิตครั้งละหลายล้านดอลลาร์สหรัฐ และต้องรองรับทีมออกแบบชิปและยืนยันซอฟต์แวร์ขนาดใหญ่ แม้จะมีอุปสรรคสูงเช่นนี้ บริษัทเทคโนโลยีชั้นนำยังคงพากันเข้าร่วมอย่างต่อเนื่อง “ME News智库” มองว่า สิ่งนี้เกิดจากตรรกะทางธุรกิจที่ชัดเจน การแข่งขันในห่วงโซ่อุปทาน และกฎพื้นฐานของเทคโนโลยี

ต้นทุนการขุดสูงและการดำเนินธุรกิจที่ไม่ยั่งยืน

ปัจจุบัน รูปแบบธุรกิจของ AI แบบสร้างเนื้อหาโดยอัตโนมัติกำลังเผชิญกับความเสี่ยงจากการ “ผกผัน” อย่างรุนแรง การฝึกโมเดลขนาดใหญ่ระดับ GPT-4 ที่มีพารามิเตอร์ล้านล้าน ต้องใช้ GPU H100 หลายหมื่นตัวทำงานเป็นเวลาหลายเดือน โดยค่าใช้จ่ายทุนด้านฮาร์ดแวร์ (CapEx) เพียงอย่างเดียวสูงถึงหลายร้อยล้านดอลลาร์สหรัฐ และหลังจากการปรับใช้โมเดลแล้ว ค่าใช้จ่ายในการให้บริการแบบต่อเนื่อง (Inference) ยิ่งเป็นหลุมลึกที่ไม่มีจุดสิ้นสุด

NVIDIA 之所以拥有超过一万亿美元的市值，本质上是在向整个 AI 行业征收高昂的“算力税”。通用 GPU 需要兼顾图形渲染（Graphics）、双精度浮点运算（FP64）等功能，这些功能占用了大量芯片晶体管面积，但在纯粹的深度学习（主要依赖 FP16、FP8 甚至 INT8）中毫无用处。大厂购买 GPU，实际上是在为这些未被利用的“暗硅（Dark Silicon）”买单。

ผ่านการพัฒนา ASIC ที่ออกแบบเองเฉพาะทาง บริษัทขนาดใหญ่สามารถตัดฟังก์ชันที่ไม่จำเป็นออกทั้งหมด และใช้พื้นที่ซิลิคอนทุกตารางนิ้วเพื่อเพิ่มประสิทธิภาพการคำนวณเทนเซอร์และแบนด์วิดธ์หน่วยความจำ ตามการประเมินของอุตสาหกรรม ในสถานการณ์การให้บริการแบบสเกลใหญ่เฉพาะเจาะจง ต้นทุนต่อการคำนวณหนึ่งครั้งของ ASIC ที่ออกแบบเอง (TCO) ต่ำกว่า GPU ทั่วไปเพียง 1/3 ถึง 1/5 สำหรับบริษัทอย่าง Meta และ ByteDance ที่ต้องดำเนินการเรียกใช้งานการให้บริการหลายพันล้านครั้งต่อวัน การปรับใช้ชิปที่ออกแบบเองในปริมาณมากจะช่วยลดค่าใช้จ่ายในการดำเนินงาน (OpEx) ได้หลายพันล้านดอลลาร์สหรัฐต่อปี การลงทุนหลายพันล้านดอลลาร์สหรัฐในการวิจัยและพัฒนาชิป เพื่อแลกกับการประหยัดต้นทุนหลายสิบพันล้านดอลลาร์สหรัฐ เป็นการคำนวณทางเศรษฐกิจที่มีความแน่นอนสูงมาก

การป้องกันความเสี่ยงด้านความปลอดภัยของห่วงโซ่อุปทานและความเสี่ยงทางภูมิรัฐศาสตร์

นอกเหนือจากต้นทุน ความเปราะบางของห่วงโซ่อุปทานคือดาบดาโมเคลิสที่แขวนอยู่เหนือหัวของยักษ์ใหญ่ด้านเทคโนโลยี นิวเดียมีอำนาจตัดสินใจอย่างสมบูรณ์ในการจัดสรรกำลังการผลิต ช่วงเวลาการจัดส่งการ์ดกราฟิกหลักเช่น H100/B200 มักยืดเยื้อเป็นเวลาหลายเดือน ถ้าไม่มีพลังการคำนวณ ความก้าวหน้าของธุรกิจ AI ของบริษัทใหญ่จะหยุดนิ่ง

การพัฒนาชิปของตนเองโดยพื้นฐานแล้วคือการเพิ่ม “อำนาจต่อรอง” (Bargaining Power) เมื่อเทียบกับ NVIDIA แม้ว่าบริษัทขนาดใหญ่จะไม่สามารถหลีกเลี่ยง NVIDIA ได้อย่างสมบูรณ์ในด้านการฝึกโมเดลขั้นสูงสุด แต่การใช้ชิปที่พัฒนาเองในด้านการประมวลผลและการแนะนำ จะช่วยลดการพึ่งพา GPU ทั่วไปจากภายนอกอย่างมาก จึงสามารถเพิ่มจุดต่อรองในการเจรจาซื้อขาย

สำหรับบริษัทจีน การพัฒนาชิปด้วยตนเองเป็นทางเลือกที่หลีกเลี่ยงไม่ได้ ด้วยข้อจำกัดจากกฎการควบคุมการส่งออกของ BIS กระทรวงพาณิชย์สหรัฐฯ บริษัทในประเทศไม่สามารถเข้าถึงชิปเชิงพาณิชย์ที่มีความหนาแน่นการประมวลผลและความกว้างแบนด์วิดธ์การเชื่อมต่อสูงสุดได้ การพัฒนาชิปด้วยตนเองร่วมกับระบบการผลิตเซมิคอนดักเตอร์ในประเทศหรือที่ไม่ใช่ของสหรัฐฯ เพื่อสร้างฐานการประมวลผลที่สามารถควบคุมได้ด้วยตนเอง คือทางออกเดียวในการรับประกันอธิปไตย AI ของประเทศและการดำเนินงานศูนย์ข้อมูลของบริษัทต่อไป

การปรับปรุงแบบบูรณาการระหว่างซอฟต์แวร์และฮาร์ดแวร์กับอุปสรรคการแข่งขันที่แตกต่าง

ในยุคที่กฎของมัวร์ค่อยๆ ช้าลง การเพิ่มประสิทธิภาพที่ได้จากการพัฒนากระบวนการผลิตชิปเพียงอย่างเดียว (เช่น จาก 5nm เป็น 3nm แล้วเป็น 2nm) กำลังมีผลตอบแทนที่ลดลง ความก้าวหน้าด้านกำลังการประมวลผลในอนาคตจึงขึ้นอยู่กับ “การกำหนดฮาร์ดแวร์ด้วยซอฟต์แวร์” และ “การออกแบบร่วมกันระหว่างซอฟต์แวร์และฮาร์ดแวร์ (Hardware-Software Co-design)”

GPU ทั่วไปต้องรองรับแอปพลิเคชันและอัลกอริธึมหลายพันชนิด ดังนั้นสถาปัตยกรรมของมันจึงต้องเป็นกลาง ในขณะที่ชิปที่บริษัทใหญ่พัฒนาเองสามารถปรับแต่งเฉพาะทางตามประเภทข้อมูล คุณสมบัติความบางเฉียบ และรูปแบบการสื่อสารของโมเดลหลักของตนได้อย่างเต็มที่

ตัวอย่างเช่น หากบริษัทขนาดใหญ่มุ่งเน้นการประมวลผลโมเดลภาษาขนาดใหญ่ที่มีบริบทยาวมาก (Long-context) ชิปที่พัฒนาขึ้นเองของพวกเขาสามารถออกแบบให้มีความจุ SRAM บนชิปหรือแบนด์วิธหน่วยความจำ HBM สูงสุด โดยไม่ต้องไล่ตามค่าพลังการประมวลผลสูงสุด (FLOPS) อย่างไร้จุดหมาย ความสามารถในการ “บันทึก” อัลกอริทึม AI ของตนเองลงบนชิปเซมิคอนดักเตอร์ระดับพื้นฐานนี้ สามารถสร้างประสบการณ์ด้านประสิทธิภาพที่คู่แข่งไม่สามารถลอกเลียนแบบได้ง่าย จึงสร้างรั้วป้องกันที่แข็งแกร่ง

ความท้าทายทางปฏิบัติและวิธีการพังกำแพงในการพัฒนาชิป AI ของตัวเอง

แม้ว่าคุณค่าเชิงกลยุทธ์ของชิป AI ที่พัฒนาด้วยตนเองนั้นชัดเจน แต่ก็ไม่ใช่ทางที่ราบเรียบ การผลิตชิปอย่างไม่พิจารณาอาจทำให้เงินทุนจำนวนมากสูญเปล่า และยังอาจชะลอความเร็วในการพัฒนาธุรกิจ AI ของตนเอง

ข้ามอุปสรรคของระบบนิเวศ: ความลึกของร่องน้ำป้องกันของ CUDA คืออะไร?

อุปสรรคที่น่ากลัวที่สุดของ NVIDIA ไม่ใช่ประสิทธิภาพฮาร์ดแวร์ แต่คือระบบนิเวศซอฟต์แวร์ CUDA ที่ดำเนินการมานานใกล้สองทศวรรษ ขณะนี้ นักพัฒนา AI ส่วนใหญ่ทั่วโลก และไลบรารีอัลกอริทึม AI ชั้นนำ (เช่น ออปเรเตอร์พื้นฐานของ PyTorch) ต่างผูกพันอย่างลึกซึ้งกับ CUDA

ความท้าทายใหญ่ที่สุดที่บริษัทขนาดใหญ่ต้องเผชิญในการพัฒนาชิปของตนเองคือ “ผลิตได้แต่ใช้งานยาก” แม้ว่าจะผลิตชิปสำเร็จแล้ว แต่หากนักพัฒนาต้องใช้เวลาหลายเดือนในการเขียนโค้ดระดับล่างใหม่เพื่อปรับให้เข้ากับคอมไพเลอร์ของชิปใหม่ ชิปนั้นก็จะไม่สามารถขยายการใช้งานภายในองค์กรได้

เพื่อพังกำแพงนี้ อุตสาหกรรมกำลังเริ่มต้นการล้อมรอบ CUDA อย่างแข็งขัน ด้านหนึ่ง บริษัทชั้นนำต่างกำลังพัฒนาคอมไพเลอร์ของตนเองอย่างแข็งขัน (เช่น XLA ของ Google) อีกด้านหนึ่ง ภาษาโปรแกรมแบบเปิดแหล่งที่มา Triton ที่ OpenAI เปิดตัวได้รับความหวังอย่างมาก Triton มีเป้าหมายเพื่อให้ภาษาที่มีระดับการนามธรรมสูงกว่า CUDA โดยนักพัฒนาสามารถเขียนโค้ดเพียงครั้งเดียว คอมไพเลอร์ Triton จะแปลงมันเป็นรหัสเครื่องที่รองรับฮาร์ดแวร์พื้นฐานต่างๆ เช่น GPU ของ Nvidia, GPU ของ AMD และ ASIC ของแต่ละบริษัท เมื่อระบบนิเวศระดับกลางเช่น Triton หรือแบบคล้ายกันสุกงอม การผูกมัดกับ CUDA จะถูกลดลงอย่างมาก และต้นทุนการย้ายไปใช้ชิปที่บริษัทใหญ่พัฒนาเองจะลดลงอย่างมีนัยสำคัญ

การแข่งขันระหว่างต้นทุนการวิจัยและพัฒนาขนาดใหญ่กับผลประโยชน์จากขนาด

อุตสาหกรรมชิปเป็นตลาดที่เน้น “ผลิตภัณฑ์ขนาดใหญ่” อย่างมากและผู้ชนะได้ทั้งหมด NVIDIA สามารถกระจายต้นทุนการวิจัยและพัฒนาขนาดใหญ่ของตนไปยังปริมาณการจัดส่ง GPU หลายล้านหน่วยทั่วโลก ในขณะที่ชิปที่บริษัทใหญ่พัฒนาเองมักใช้ภายในหรือให้ลูกค้าคลาวด์ของตนเองเท่านั้น ปริมาณการจัดส่งอาจอยู่ที่ระดับแสนหรือหลายสิบหมื่นหน่วย

หากไม่สามารถบรรลุขนาดที่เพียงพอ ต้นทุนต่อชิปที่แบ่งจ่ายเองจะสูงกว่าการซื้อ GPU ทั่วไปโดยตรงอย่างมาก ดังนั้น การพัฒนาชิป AI ด้วยตนเองจึงเป็นเพียง “เกมของผู้กล้าที่เหล่ายักษ์ใหญ่เท่านั้นที่เล่นได้” สำหรับบริษัทเทคโนโลยีระดับกลางถึงปลายหาง การพยายามพัฒนาชิป AI ระดับพื้นฐานด้วยตนเองไม่เพียงแต่ไม่สามารถดำเนินการทางการเงินได้อย่างยั่งยืน แต่ยังไม่สามารถติดตามจังหวะการอัปเดตเทคโนโลยีของผู้ผลิตชิปมืออาชีพอย่าง NVIDIA ได้ การเลือกที่ชาญฉลาดกว่าคือการรับเอาบริการคลาวด์สำหรับการประมวลผลที่มีอยู่แล้ว

ตารางที่ 2: การเปรียบเทียบข้อดีและข้อเสียของ GPU ทั่วไปสำหรับธุรกิจกับ ASIC ที่บริษัทใหญ่พัฒนาขึ้นเอง

การวิเคราะห์: การพัฒนาขั้นสุดท้ายของโครงสร้างพลังการคำนวณในอนาคต

จากการวิเคราะห์ข้างต้น 『ME News智库』ได้สรุปเกี่ยวกับโครงสร้างพลังการคำนวณ AI ทั่วโลกในอีก 3-5 ปีข้างหน้าดังนี้:

จาก “หนึ่งเหนือกว่าหลายแห่ง” สู่ “การแบ่งตามแนวตั้ง”: GPU นำการฝึกอบรม ASIC ครองการอนุมาน

NVIDIA จะยังคงเป็นผู้นำที่ไม่สามารถแทนที่ได้ในการสำรวจขอบเขตของโมเดล AI ขั้นสูง (Frontier Models) สำหรับช่วงเวลาอันยาวนานในอนาคต เนื่องจากในขั้นตอนการฝึกอบรมพารามิเตอร์ขนาดใหญ่ที่ซับซ้อนอย่างยิ่ง ยังคงมีความไม่แน่นอนสูงในอัลกอริทึม ซึ่งต้องการความยืดหยุ่นและการแก้ไขข้อผิดพลาดของ GPU และระบบนิเวศ CUDA

อย่างไรก็ตาม ในขั้นตอนการให้บริการ (Inference) หลังจากโมเดลบรรลุความสุกงอม รวมถึงการใช้งานรายวันในแอปพลิเคชันอินเทอร์เน็ตขนาดใหญ่ เช่น การแนะนำวิดีโอสั้น หรือการปรับปรุงผลลัพธ์ของเครื่องมือค้นหา ต้นทุนสูงของ GPU ทั่วไปจะบังคับให้บริษัทเปลี่ยนไปใช้ ASIC ที่ออกแบบและพัฒนาเองทั้งหมด ศูนย์ข้อมูลในอนาคตจะเป็นแบบไฮบริด: กลุ่ม GPU จำนวนน้อยแต่มีราคาสูงมากใช้สำหรับ “การหลอม炼丹” (การฝึกโมเดลขนาดใหญ่รุ่นถัดไป) ในขณะที่กลุ่ม ASIC ที่ออกแบบเองจำนวนมหาศาลจะรับผิดชอบการตอบสนองต่อคำขอจากผู้ใช้ปลายทางหลายพันล้านครั้งต่อวัน

ชิปแบบกำหนดเอง (Custom Silicon) กลายเป็นมาตรฐานของบริการคลาวด์

เช่นเดียวกับศูนย์ข้อมูลขนาดใหญ่ในวันนี้ที่ออกแบบเมนบอร์ดเซิร์ฟเวอร์และระบบระบายความร้อนด้วยตัวเอง การปรับแต่งระดับชิปอย่างลึกซึ้งจะกลายเป็นมาตรฐานของผู้ให้บริการคลาวด์ชั้นนำ (CSP) ความสามารถในการพัฒนาชิปด้วยตัวเองจะกลายเป็นข้อได้เปรียบหลักที่ผู้ให้บริการคลาวด์ใช้เสนอขายบริการ AI ให้กับลูกค้า ผู้ให้บริการคลาวด์ที่ไม่มีความสามารถในการพัฒนาฮาร์ดแวร์ระดับพื้นฐานจะสูญเสียพื้นที่กำไรอย่างสมบูรณ์ในสงครามราคาในอนาคต และกลายเป็นเพียง “เจ้าของอาคารห้องเซิร์ฟเวอร์” อย่างบริสุทธิ์

สรุปแล้ว การพัฒนาชิป AI ของบริษัทขนาดใหญ่ไม่ได้มีเป้าหมายเพื่อ “กำจัด” NVIDIA อย่างสมบูรณ์ แต่เป็นสงครามเพื่อแย่งชิงสิทธิ์ในการแบ่งปันผลกำไรพื้นฐานในยุค AI โดยผ่านการบรรลุอิสระด้านการประมวลผลในด้านการให้บริการและการดำเนินงานหลักภายใน บริษัทเทคโนโลยีกำลังเรียกคืนการควบคุมต่อเส้นเลือดใหญ่ของเทคโนโลยีและผลกำไรทางธุรกิจ ในการเปลี่ยนแปลงอันลึกซึ้งที่รวมซอฟต์แวร์และฮาร์ดแวร์เข้าด้วยกันนี้ ความสามารถในการประมวลผลไม่ใช่เพียงสินค้าที่สามารถซื้อได้อีกต่อไป แต่เป็นทรัพย์สินเชิงกลยุทธ์ที่สำคัญที่สุดขององค์กร

อ้างอิงจาก:

Semianalysis. (2024). AI Inference Economics: GPUs vs Custom Silicon.
Stanford University HAI. (2024). Artificial Intelligence Index Report 2024.
Bloomberg Technology. (2023). Microsoft จะเปิดตัวชิปปัญญาประดิษฐ์เพื่อลดการพึ่งพา Nvidia.
Patterson, D., et al. (2021). Carbon Emissions and Large Neural Network Training. arXiv preprint.
AWS Official Blog. (2023. Amazon EC2 Inf2 Instances for Low-Cost, High-Performance Generative AI.