ชิป AI ขนาดวอเฟอร์ของ Cerebras ทำลายกำแพงหน่วยความจำในยุคการอนุมาน

ในปี 2026 การพัฒนา AI ทั่วโลกได้ถึงจุดเปลี่ยนที่มีความหมายสำคัญ—ค่าใช้จ่ายด้านการลงทุนด้านการให้บริการของผู้ให้บริการคลาวด์ขนาดใหญ่ ครั้งแรกในประวัติศาสตร์ที่สูงกว่าค่าใช้จ่ายด้านการฝึกอบรม จุดยึดของอุตสาหกรรมจึงเปลี่ยนจาก “การสร้างโมเดลขนาดใหญ่” เป็น “การใช้งานโมเดลขนาดใหญ่” โครงสร้างความต้องการพลังการคำนวณจึงกลับตัวอย่างสิ้นเชิง

ในยุคการฝึกอบรม ความขัดแย้งหลักของพลังการคำนวณคือ “จุดทศนิยมแบบสองความแม่นยำและขนาดคลัสเตอร์” ในขณะที่เมื่อเข้าสู่ยุคการให้เหตุผล ความขัดแย้งหลักเปลี่ยนเป็น “แบนด์วิดธ์หน่วยความจำและความล่าช้าในการสื่อสาร”

ข้อจำกัดของการประมวลผลโมเดลขนาดใหญ่ไม่ได้จำกัดอยู่ที่การคำนวณเพียงอย่างเดียว แต่เป็นการย้ายข้อมูล—น้ำหนักโมเดล ค่าการกระตุ้นระดับกลาง และ KV Cache ต้องมีการแลกเปลี่ยนบ่อยครั้งระหว่าง DRAM ภายนอกชิป (เช่น HBM) กับ GPU ยิ่งโมเดลมีขนาดใหญ่เท่าใด การย้ายข้อมูลก็จะใช้พลังงานและเกิดความล่าช้ามากขึ้น จนสุดท้ายเกินกว่าพลังงานที่ใช้ในการคำนวณเอง จึงก่อให้เกิดกำแพงหน่วยความจำ

GPU ของ NVIDIA สร้างกำแพงที่มั่นคงด้วย CUDA และ NVLink แต่ก็ยังหลีกเลี่ยงไม่ได้ที่จะเกิดการรอคอยของ GPU จากข้อจำกัดของแบนด์วิธ

บริษัทโมเดลขนาดใหญ่ของจีน Zhipu ได้ทำการทดลองอย่างง่ายๆ: คลัสเตอร์การให้บริการแบบ 512 หน่วย GPU โดยไม่เปลี่ยน GPU ไม่เปลี่ยนโมเดล ไม่เปลี่ยนโค้ด แต่เพียงเปลี่ยนขีดจำกัดแบนด์วิธเครือข่ายจาก 200 GB/s เป็น 400 GB/s ทำให้การผ่านการให้บริการเพิ่มขึ้น 10% และความล่าช้าในการส่งออกโทเค็นแรกลดลง 19% — เหตุผลก็ง่ายๆ เพียงแค่ขยายถนน รถก็จะวิ่งเร็วขึ้น

อย่างไรก็ตาม สถาปัตยกรรมที่ไม่ใช่ GPU ซึ่งมี Cerebras เป็นตัวแทน ดูเหมือนกำลังเจาะช่องว่างขึ้นมาบนกำแพงหน่วยความจำ

ชิปในระดับวัสดุซิลิคอน

การเปรียบเทียบขนาดชิป Cerebras WSE-3 กับ GPU ของ NVIDIA B200

แก่นแท้ของ Cerebras: เครื่องการคำนวณใกล้หน่วยความจำที่ใช้ SRAM

Cerebras Systems ก่อตั้งโดย Andrew Feldman และทีมผู้ก่อตั้งคนอื่นๆ ในซิลิคอนแวลลีย์ โดยทีมผู้ก่อตั้งในช่วงแรกทั้งหมดมาจากบริษัท SeaMicro ซึ่งผลิตเซิร์ฟเวอร์ไมโครที่ใช้พลังงานต่ำ บริษัทนี้ต่อมาถูก AMD ซื้อไป แล้ว:

ในปี 2015 ทีมผู้ก่อตั้งได้กำหนดแนวทาง “การคำนวณระดับวุ้น”;

ในปี 2016 ได้ดำเนินการลงทะเบียนและระดมทุนรอบ A แล้วเข้าสู่ระยะการพัฒนาแบบเงียบ

ในปี 2019 ได้เปิดตัวผลิตภัณฑ์รุ่นแรกคือชิป WSE-1 และระบบ CS-1 ที่ใช้กระบวนการของ TSMC 16nm;

ในปี 2021 ได้เปิดตัวผลิตภัณฑ์รุ่นที่สองที่ใช้กระบวนการ 7nm ของ TSMC;

ในปี 2024 ได้เปิดตัวผลิตภัณฑ์รุ่นที่สาม (WSE-3 / CS-3) ที่ใช้กระบวนการ 5nm ของ TSMC โดยชิปและระบบถูกผลิตทั้งหมดในสหรัฐอเมริกา จึงเป็นระบบชิปที่ผลิตอย่างแท้จริงในสหรัฐอเมริกา

ชิปในระดับวัสดุซิลิคอน

การกำหนดค่าระบบ CS-3 พร้อมชิป WSE-3 หนึ่งตัว

ปรัชญาสถาปัตยกรรม Wafer-Scale Engine (WSE) ของ Cerebras นั้นเรียบง่ายแต่ตรงจุด: แลกพื้นที่ทางกายภาพที่ขยายสูงสุด เพื่อลดความล่าช้าในการย้ายข้อมูลให้ต่ำสุด

ชิปทั่วไปจะตัดวัสดุซิลิคอนแผ่นใหญ่ออกเป็นชิปขนาดเล็กหลายชิป เช่น GPU ของ NVIDIA ใช้แนวคิดนี้ ส่วน Cerebras กลับกัน: ไม่ตัด แต่ใช้แผ่นซิลิคอนเกือบทั้งแผ่นสร้างเป็นชิปขนาดใหญ่มาก ชื่อว่า Wafer-Scale Engine (WSE)

ชิปแบบดั้งเดิมจะตัดวัสดุซิลิคอนทรงกลมขนาดเส้นผ่านศูนย์กลาง 300 มม. ออกเป็นชิปขนาดเล็กนับร้อยชิ้น แต่ Cerebras เลือกเก็บวัสดุซิลิคอนทั้งแผ่นไว้และใช้เป็นชิปเดียว โดย WSE-3 รุ่นล่าสุดมีทรานซิสเตอร์ 4 ล้านล้านตัวและแกน AI 900,000 แกน แต่ละแกนมี SRAM ท้องถิ่นขนาด 48 KB ทำให้ชิปทั้งหมดมี SRAM บนชิปรวม 44 GB พร้อมแบนด์วิดธ์หน่วยความจำบนชิป (on‑chip memory bandwidth) 21 PB/วินาที และแบนด์วิดธ์เครือข่าย (fabric bandwidth) 214 Pb/วินาที ซึ่งมากกว่าแบนด์วิดธ์ HBM แบบดั้งเดิมหลายพันเท่า

ชิปในระดับวัสดุซิลิคอน

แบนด์วิธหน่วยความจำของ Cerebras WSE มากกว่าชิปบรรจุภัณฑ์ NVIDIA B200 ถึง 2625 เท่า ทำลายข้อจำกัดด้านแบนด์วิธหน่วยความจำในสถานการณ์การให้เหตุผลแบบโมเดลขนาดใหญ่

ในสถาปัตยกรรมของ Cerebras น้ำหนักของโมเดลจะไม่ถูกเก็บไว้บน SRAM เลย แต่จะถูกเก็บไว้บนหน่วยความจำภายนอก MemoryX และค่อยๆ ถ่ายโอนไปยังชิปขนาดใหญ่ทีละชั้น โดยวิธีการนี้ทำได้โดยการแยกการจัดเก็บน้ำหนักของโมเดลเครือข่ายประสาทเทียมออกจากหน่วยคำนวณ

น้ำหนักของโมเดลทั้งหมดถูกเก็บไว้ภายนอกในโมดูลขยายหน่วยความจำ MemoryX โดยน้ำหนักที่จำเป็นสำหรับการคำนวณแต่ละชั้นของเครือข่ายจะถูกส่งไปยังระบบ CS-3 ทีละชั้นตามความต้องการ น้ำหนักเหล่านี้ถูกเก็บไว้ใน DRAM และแฟลชของ MEMORY X และถูกส่งไปยังระบบ CS-3 ด้วยอัตราแบนด์วิดธ์เต็มรูปแบบ น้ำหนักเหล่านี้จะไม่ถูกเก็บไว้ในระบบ CS-3 แม้แต่แค่แคชชั่วคราว และ CS-3 จะดำเนินการคำนวณผ่านกลไกการไหลของข้อมูลระดับพื้นฐาน

Cerebras ใช้สถาปัตยกรรมระดับวัฟเฟิล ทำให้มีข้อได้เปรียบอย่างท่วมท้นในการให้บริการการอนุมาน LLM ที่ถูกจำกัดด้วยแบนด์วิดธ์หน่วยความจำ เมื่อสร้างทีละโทเค็น น้ำหนักจะถูกส่งแบบสตรีมจากหน่วยความจำภายนอก MemoryX ไปยัง CS-3 ตามแต่ละชั้น โดยอัตราโทเค็นเมื่อรันโมเดลต่างๆ อยู่ที่ 1.5 ถึง 5 เท่าของ NVIDIA B200

ชิปในระดับวัสดุซิลิคอน

การเปรียบเทียบอัตรา Token ของ GPU 英伟达 DGX B200 กับชิป Cerebras CS-3 เมื่อรันโมเดลขนาดใหญ่ต่างๆ

ข้อได้เปรียบหลักอยู่ที่ SRAM บนชิป 44GB ของ CS-3 ซึ่งให้แบนด์วิดธ์สูงมากถึง 21 PB/s (มากกว่า B200 2,625 เท่า) และการเชื่อมต่อ 214 Pb/s ทำให้การส่งข้อมูลน้ำหนักโมเดลพ้นจากข้อจำกัดของอินเตอร์เฟซ HBM จึงมีประสิทธิภาพโดดเด่นเป็นพิเศษในด้าน TTFT (Time To First Token เวลาตั้งแต่ส่งคำขอจนโมเดลส่ง token แรกกลับมา) บริบทยาว และภาระงานของตัวแทน

แม้ว่าจะมีน้ำหนักถูกแยกออกนอก MemoryX และโหลดทีละชั้นตามความต้องการ โดยไม่เก็บไว้ในแคชบนชิป CS-3 ใช้กลไกการไหลของข้อมูลหลักเพื่อทำการคำนวณแบบเต็มความละเอียด FP16 โดยไม่สูญเสียข้อมูลใน SRAM; ด้วยการขยายประสิทธิภาพแบบเชิงเส้น มันจึงสามารถปล่อยผ่านข้อมูลรวมที่น่าทึ่งเมื่อมีผู้ใช้หลายคนใช้งานพร้อมกัน

นอกจากความได้เปรียบด้านแบนด์วิธแล้ว ยังมีข้อได้เปรียบด้านการใช้พลังงาน อีกทั้งในงานสัมมนาของคุณหลิว เซิง ประธานเจ้าหน้าที่บริหารของ Zhongji Xuchuang เมื่อเร็วๆ นี้ ได้กล่าวว่า ลูกค้าต้องการความต้องการพลังงานของโมดูลแสงที่ 1 pJ/bit ขณะที่ปัจจุบันอยู่ที่ 10 pJ/bit ในชิป Cerebras การใช้พลังงานของการเชื่อมต่ออยู่ที่เพียง 0.15 pJ/bit ในขณะที่การเชื่อมต่อของ GPU ปัจจุบันอยู่ที่ 10 pJ/bit

ชิปในระดับวัสดุซิลิคอน

เปรียบเทียบแบนด์วิธและกำลังไฟของสถาปัตยกรรมการเชื่อมต่อ Cerebras กับ GPU

ดังนั้น หากสถาปัตยกรรมชิปขนาดใหญ่ระดับวุ้นของ Cerebras กลายเป็นมาตรฐานหลักสำหรับการให้บริการ AI หรือแม้แต่การฝึกอบรม อาจส่งผลให้ปริมาณการจัดส่งโมดูลแสงแบบดั้งเดิมและ CPO (Co-Packaged Optics) ลดลงอย่างมีนัยสำคัญและเกิดการเปลี่ยนแปลงเชิงโครงสร้าง เหตุผลหลักคือ: ความต้องการที่สูงของโมดูลแสงและ CPO เกิดขึ้นเพื่อแก้ไขข้อจำกัดด้านแบนด์วิดธ์ในการเชื่อมต่อระหว่างชิปและระหว่างโหนดในคลัสเตอร์ GPU ขณะที่สถาปัตยกรรมของ Cerebras แก้ปัญหานี้โดยการ “กำจัดการเชื่อมต่อแบบกระจาย”

ขัดกับสัญชาตญาณ: จุดอ่อนที่แท้จริงของชิปขนาดใหญ่ระดับวุ้น

แกนหลักของชิป luônอยู่ที่การ Trade Off (ศิลปะของการตัดสินใจเลือก) Cerebras เพื่อความเร็วในการรับส่งข้อมูลของ SRAM บนชิปอย่างสุดขีด จึงก่อให้เกิดปัญหาบางประการ

อัตราการผลิตต่ำ?

ในทางกลับกัน ขนาดของแต่ละแกน AI ถูกลดลงเหลือ 0.05 ตารางมิลลิเมตร (คิดเป็น 1% ของขนาดแกนประมวลผลเดี่ยวของ H100) จึงทำให้อัตราการผลิตที่ได้ผลดีสูงขึ้น ผ่านการจัดเส้นทางบนชิป สามารถปิดใช้งานและหลีกเลี่ยงแกนที่มีข้อบกพร่อง ทำให้ความทนทานต่อข้อบกพร่องสูงขึ้น 100 เท่าเมื่อเทียบกับโปรเซสเซอร์หลายแกนแบบดั้งเดิม ที่จริงแล้วชิปนี้มีแกน AI 1 ล้านแกน แต่เมื่อพิจารณาอัตราการผลิตที่ได้ผลดีแล้ว จึงประกาศว่ามีแกน AI 900,000 แกน

เชี่ยวชาญในการให้เหตุผล แต่ไม่เชี่ยวชาญในการฝึกฝน?

ในช่วงไม่กี่ปีที่ผ่านมาหลังจากที่ Cerebras ก่อตั้งขึ้น การฝึกอบรมเป็นหัวข้อหลัก ดังนั้นบริษัทจึงมุ่งเน้นงานจำนวนมากไปที่การฝึกอบรม แต่เมื่อความต้องการการอนุมานเริ่มร้อนแรง ผู้คนจึงพบว่าข้อได้เปรียบของมันในด้านการอนุมานชัดเจนยิ่งขึ้น

การคำนวณแบบกระจายที่ลดความซับซ้อนยังนำมาซึ่งข้อได้เปรียบหลายประการ เช่น ลดความซับซ้อนของโค้ดและลดค่าใช้จ่ายในการสื่อสาร

การฝึกโมเดลที่มีพารามิเตอร์ 175 พันล้านตัวบน GPU 4,000 เครื่อง มักต้องใช้โค้ดการฝึกแบบกระจายประมาณ 20,000 บรรทัด

Cerebras บรรลุการฝึกที่เทียบเท่ากับ 565 บรรทัดของรหัส — โมเดลทั้งหมดสามารถติดตั้งบนวุ้นได้ โดยไม่ต้องจัดการกับความซับซ้อนของการแบ่งข้อมูลแบบขนาน

SRAM scaling ตายแล้ว ข้อได้เปรียบหลักเผชิญกับขีดจำกัดทางฟิสิกส์

ผลิตภัณฑ์รุ่นที่สามใช้เทคโนโลยี 5nm ของ TSMC โดยความจุ SRAM เพิ่มขึ้นเพียง 10% เทียบกับรุ่นที่สองที่ใช้เทคโนโลยี 7nm ของ TSMC หลังจากเทคโนโลยี 5nm พื้นที่หน่วย SRAMแทบไม่ลดลงอีกเลยตามการพัฒนากระบวนการผลิต

นี่หมายความว่า Cerebras ไม่สามารถเพิ่มข้อได้เปรียบหลักของตน (ความจุ SRAM) ได้อย่างมีนัยสำคัญอีกต่อไป โดยการอัปเกรดกระบวนการของ TSMC เช่น จาก 5nm เป็น 3nm เหมือนที่เคยทำในอดีต

เนื่องจากข้อจำกัดของขนาดวุ้น ความสามารถในการระบายความร้อน และต้นทุนการผลิต ทรัพยากรการจัดเก็บเช่น SRAM บนชิปไม่สามารถขยายตัวเชิงเส้นพร้อมกับหน่วยประมวลผลได้ ทำให้เกิดข้อจำกัดในการจัดสรรทรัพยากร ซึ่งแทบจะปิดกั้นเส้นทางการพัฒนาของมัน

ชิปในระดับวัสดุซิลิคอน

สเปคเทคโนโลยีของผลิตภัณฑ์รุ่นที่สามของ Cerebras

การหลอมรวมสามอย่าง: การระบายความร้อน กระบวนการผลิต และระบบนิเวศ

การกระจายความร้อนบนวเฟอร์ทั้งแผ่นมีความหนาแน่นของกระแสความร้อนสูง จึงต้องพึ่งพาห้องเซิร์ฟเวอร์ที่ออกแบบเฉพาะและระบบระบายความร้อนด้วยของเหลวเฉพาะทาง ยิ่งไปกว่านั้น ความเข้ากันได้กับระบบนิเวศโดยทั่วไปหมายความว่าลูกค้าต้องปรับตัวให้เข้ากับสแต็กซอฟต์แวร์ที่ออกแบบเฉพาะ ซึ่งมีความเข้ากันได้ต่ำกับกรอบการเขียนโปรแกรมทั่วไปเช่น CUDA ทำให้ต้นทุนการย้ายและปรับซอฟต์แวร์สูง

แบนด์วิดธ์ภายนอกต่ำ ทำให้กลายเป็น “เกาะที่แยกออก”

เนื่องจากข้อจำกัดด้านการออกแบบฟิสิกส์ระดับวัฟเฟิล จำนวนขา I/O ที่สามารถดึงออกมาจากขอบ WSE จึงมีจำกัดอย่างมาก ส่งผลให้แบนด์วิดธ์ I/O ของมันอยู่ที่เพียง 150 GB/s เทียบกับแบนด์วิดธ์แบบสองทิศทางของ NVLink จาก NVIDIA ที่มักอยู่ที่ 1.8 TB/s นั้นเหมือนกับหอยทาก ซึ่งหมายความว่า WSE ยากมากที่จะขยายออกไปอย่างรวดเร็ว แม้ว่า SwarmX interconnect ของ Cerebras จะทำงานได้ค่อนข้างดีในการเชื่อมต่อหลายระบบ แต่ในกรณีของโมเดลขนาดใหญ่มากที่ต้องการการเชื่อมต่อความเร็วสูงระหว่างชิปหลายตัว แบนด์วิดธ์ภายนอกชิปที่ต่ำมากกลับกลายเป็นข้อจำกัดทางกายภาพเชิงโครงสร้าง

การแข่งขันทางเส้นทาง: บริษัทขนาดใหญ่พัฒนาเอง Cerebras จะมีช่วงเวลาที่เหมาะสมอีกนานแค่ไหน?

วิธีการของบริษัทขนาดใหญ่ในการแก้ไขปัญหา “การให้บริการเชิงตรรกะต้องการแบนด์วิดธ์ที่สูงขึ้นและความล่าช้าที่ต่ำลง” ไม่ได้มีเพียงทางเดียวคือ wafer-scale พวกเขากำลังใช้สามเส้นทางพร้อมกันเพื่อล้อมจับผลประโยชน์ทางเทคโนโลยีของบริษัทสตาร์ทอัพ

① ชิป ASIC ที่พัฒนาเอง

Google TPU v8 ได้แบ่งออกเป็นสองเวอร์ชัน ได้แก่ เวอร์ชันสำหรับการฝึกอบรมและเวอร์ชันสำหรับการอนุมาน; AWS Trainium 4 กำลังจะมา; Microsoft Maia ได้รับการใช้งานภายใน Azure แล้ว สร้างด้วยกระบวนการ 3nm ของ TSMC มีเทนเซอร์คอร์แบบ FP8/FP4 แบบเนทีฟ ระบบหน่วยความจำที่ออกแบบใหม่ พร้อม HBM3e 216GB และ SRAM บนชิป 272MB; แม้แต่ Anthropic ก็เริ่มประเมินชิปการอนุมานของตนเอง

ความเป็นไปได้ของเส้นทางนี้สูงมาก และจะนำไปสู่การซื้อ inference จากบุคคลที่สามใน TAM (ตลาดที่สามารถเข้าถึงได้ทั้งหมด) ปี 2028 โดยทำให้ขอบเขตบนถูกบีบอัดลง 10% ถึง 25%

② การทำให้กระบวนการของเส้นทางการบรรจุมาตรฐานเป็นสากล

นี่คือการโจมตีแบบลดมิติที่ตรงที่สุดต่อ Cerebras

SoW (System-on-Wafer) ของ TSMC ได้เปิดให้ลูกค้าใช้งานอย่างกว้างขวางแล้ว และ interposer CoWoS 9.5x จะเปิดใช้งานในปี 2027

สิ่งที่ผลิตภัณฑ์ทั้งสองนี้ทำ—การเชื่อมต่อ die หลายตัวในระดับ wafer—本质上คือการทั่วไปและทำให้กระบวนการทางกายภาพของ Cerebras เข้าถึงได้มากขึ้น

Vera Rubin ของ NVIDIA จะเข้าสู่ระบบนี้ในช่วงครึ่งหลังของปี 2026

แม้การเชื่อมต่อข้ามเรติเคิลของ Cerebras จะเป็นสิทธิ์เฉพาะตัว แต่ช่วงเวลาที่มีสิทธิ์เฉพาะนี้จะยาวนานที่สุดเพียง 2 ถึง 3 ปี และหลังจากปี 2027–2028 กำแพงเทคโนโลยีของมันจะถูกทำให้จางลงโดยการแพ็คเกจขั้นสูงของ TSMC

③ การก้าวข้ามของออปติคัลอินเตอร์คอนเนกต์/ออปติคัลคอมพิวติ้ง

การเชื่อมต่อชิปอิเล็กทรอนิกส์และกำแพงหน่วยความจำได้ถึงขีดจำกัดแล้ว โฟตอนด้วยแบนด์วิดธ์สูง ความล่าช้าต่ำ และไม่มีการรบกวนข้ามกัน คือวิธีแก้ปัญหาสุดท้าย

เส้นทางออปติคัลที่มี Lumentum เป็นตัวแทนกำลังกำลังเติบโตขึ้น ข้อได้เปรียบสูงสุดของ wafer-scale คือการคำนวณบนชิป แต่โมเดลจะต้องมีขนาดใหญ่ขึ้นเรื่อยๆ การเชื่อมต่อความเร็วสูงเหนือ wafer scale จึงเป็นสิ่งจำเป็น

ด้วยความเป็นผู้นำของ CPO (Co-Packaged Optics) และ Optical Interconnects ในอนาคต เราอาจได้เห็นการนำ I/O แบบแสงมาใช้โดยตรงบนวัสดุ WSE เพื่อทำลายข้อจำกัดของการเชื่อมต่อแบบไฟฟ้า; ในขณะเดียวกัน NVIDIA อาจเข้าซื้อกิจการ LPU (เช่น Groq) ที่มีข้อได้เปรียบด้านสถาปัตยกรรมเฉพาะตัว แล้วผสานการเชื่อมต่อแบบแสงเพื่อพัฒนาระบบระดับวัสดุที่เข้ากันได้กับซอฟต์แวร์ NV Super Node ที่มีอยู่

วิ่งเร็วบนหน้าผา: ธุรกิจและการจัดส่งของ Cerebras

Cerebras กำลังเผชิญกับการวิ่งแบบพุ่งลงเหวที่ถูกผลักดันโดยคำสั่งซื้อขนาดใหญ่

การดำเนินธุรกิจกับลูกค้ารายใหญ่เช่น OpenAI บังคับให้ Cerebras เปลี่ยนจากบริษัทชิปไปเป็นผู้ให้บริการคลาวด์รูปแบบใหม่ มันไม่ได้แค่ขายฮาร์ดแวร์อีกต่อไป แต่ต้องจับจองและสร้างโครงสร้างพื้นฐานและพลังงานสำหรับศูนย์ข้อมูลจำนวนมากในระยะเวลาอันสั้น

ตามข้อกำหนดของสัญญา Cerebras ต้องจัดส่งกำลังการผลิตศูนย์ข้อมูล 250 เมกะวัตต์ต่อปีในช่วงปี 2026 ถึง 2028 อย่างไรก็ตาม ระบบระดับวุ้นต้องการเงื่อนไขที่เข้มงวดสำหรับห้องเครื่อง และไม่สามารถติดตั้งได้โดยตรงใน IDC แบบระบายความร้อนด้วยอากาศ ปัจจุบัน Cerebras ล่าช้าอย่างชัดเจนในการเตรียมกำลังการผลิตศูนย์ข้อมูลเมื่อเทียบกับข้อกำหนดในสัญญา

ตั้งแต่การผลิตชิปไปจนถึงการสร้างโรงงาน การขออนุมัติด้านพลังงานไปจนถึงการติดตั้งระบบระบายความร้อน นี่คือกระบวนการที่ใช้ทุนสูงและใช้เวลานาน

ตอนท้าย: ไปทางซ้ายหรือทางขวา?

กลับไปที่ข้อสมมติเริ่มต้น เมื่อจุดเปลี่ยนของกำลังการประมวลผลการให้เหตุผลได้มาถึง โครงสร้างกำลังการประมวลผลยังคงอยู่ที่การตัดสินใจเลือก

ไม่มีถูกหรือผิดอย่างสัมบูรณ์ มีเพียงทางแก้ที่ดีที่สุดสัมพัทธ์ภายใต้โหลดที่สำคัญที่สุด โหลดนั้นกำลังเปลี่ยนไปอยู่แล้ว

Cerebras เลือกทางซ้าย โดยเน้นการปรับแต่งทางกายภาพอย่างสุดขั้ว แลกเปลี่ยนวัสดุซิลิคอนทั้งแผ่นและ SRAM ปริมาณมหาศาล เพื่อให้ได้ความล่าช้าต่ำสุดในงานเดียว ซึ่งเป็นสิ่งที่ไม่มีใครเทียบได้ในสถานการณ์ที่ไวต่อความล่าช้าของโทเค็นแรก

NVIDIA เลือกทางขวา โดยรักษาความยืดหยุ่นทั่วไปด้วย HBM + NVLink + ความจุการรับส่งข้อมูลของคลัสเตอร์ขนาดใหญ่ เพื่อรับมือกับความหลากหลายของภาระงาน โดยใช้ความคงที่ตอบสนองต่อการเปลี่ยนแปลงทั้งหมด

ลมพัดคลื่นเปลี่ยน หนทางข้างหน้ายังไม่แน่นอน ความไม่แน่นอนทั้งด้านเทคโนโลยีและธุรกิจนี้เองที่สร้างโอกาสในการพลิกผัน ในกระแสพลังการประมวลผลที่มุ่งสู่ AGI ยังเร็วเกินไปที่จะสรุปตอนนี้ — เพราะความไม่แน่นอน จึงมีโอกาส

บทความนี้มาจาก微信号 “蒜粒研究所” โดยผู้เขียน: Thunderbolt Ranger