Cerebras ทำได้ 981 โทเค็นต่อวินาทีบนโมเดล Kimi K2.6 เร็วกว่า GPU Cloud 6.7 เท่า

Cerebras Systems ขณะนี้ให้บริการ Moonshot AI’s Kimi K2.6 ซึ่งเป็นโมเดล Mixture-of-Experts แบบเปิดน้ำหนักที่มีพารามิเตอร์ 1 ล้านล้านตัว ด้วยความเร็ว 981 โทเค็นเอาต์พุตต่อวินาที ตัวเลขนี้ได้รับการยืนยันจากการทดสอบอย่างอิสระจาก Artificial Analysis ซึ่งแสดงถึงความเร็วเร็วกว่าผู้ให้บริการคลาวด์ GPU ที่ดีที่สุดอันดับสองถึง 6.7 เท่า

สำหรับบริบท ผู้ให้บริการการอนุมานแบบมัธยฐานช้ากว่าประมาณ 23 เท่า

ตัวเลขจริงๆ แล้วดูเป็นอย่างไรในทางปฏิบัติ

ในภารกิจการเขียนโค้ดแบบตัวแทนที่เป็นตัวแทน ด้วยโทเค็นนำเข้า 10,000 โทเค็นและโทเค็นส่งออก 500 โทเค็น ระบบที่ขับเคลื่อนด้วย Cerebras ให้คำตอบครบถ้วนภายใน 5.6 วินาที

โฆษณา

งานเดียวกันบนจุดสิ้นสุดอย่างเป็นทางการของ Kimi ใช้เวลา 163.7 วินาที ซึ่งเป็นการปรับปรุงความล่าช้าแบบ end-to-end ถึง 29 เท่า

โมเดล Kimi K2.6 เองนั้นคุ้มค่าที่จะเข้าใจ ซึ่งพัฒนาโดย Moonshot AI และเปิดตัวเมื่อวันที่ 20 เมษายน 2026 โดยมีคุณสมบัติแบบมัลติโมดัลและเอเจนต์ แม้จำนวนพารามิเตอร์ทั้งหมดจะถึง 1 ล้านล้านพารามิเตอร์ แต่ในแต่ละช่วงเวลาจะมีเพียง 32 พันล้านพารามิเตอร์เท่านั้นที่ถูกเปิดใช้งาน nhờสถาปัตยกรรม MoE

ทำไมสถาปัตยกรรมแบบ wafer-scale จึงเปลี่ยนสมการ

เทคโนโลยีหลักของ Cerebras คือ Wafer-Scale Engine ซึ่งเป็นชิปที่ทำจากซิลิคอนวเฟอร์ทั้งก้อน ชิปแบบดั้งเดิมจะถูกตัดจากวเฟอร์เป็นชิ้นเล็กๆ แต่ Cerebras ข้ามขั้นตอนการตัดและใช้วเฟอร์ทั้งก้อน

Cerebras อ้างว่ามีแบนด์วิดธ์มากกว่า NVLink ของ NVIDIA ถึงกว่า 200 เท่า ซึ่งเป็นเทคโนโลยีการเชื่อมต่อที่ใช้เชื่อม GPU เข้าด้วยกันในคลัสเตอร์ศูนย์ข้อมูล เมื่อทำงานด้านการอนุมานบนโมเดลขนาดใหญ่ จุดที่เป็นข้อจำกัดเกือบเสมอคือแบนด์วิดธ์หน่วยความจำ ไม่ใช่ความสามารถในการประมวลผลแบบดิบ น้ำหนักต่างๆ ต้องถูกอ่านจากหน่วยความจำและส่งไปยังตัวประมวลผลสำหรับแต่ละโทเค็นที่สร้างขึ้น

บริบททางธุรกิจ: บริษัทเพิ่งเข้าตลาดหลักทรัพย์และมีอะไรบางอย่างที่ต้องพิสูจน์

Cerebras ดำเนินการเสนอขายหุ้นครั้งแรกในเดือนพฤษภาคม 2026 ด้วยมูลค่า 95 พันล้านดอลลาร์ ทำให้เป็นการเสนอขายหุ้นครั้งแรกด้านเทคโนโลยีที่ใหญ่ที่สุดในปีนี้

ผลลัพธ์ที่ 981 โทเค็นต่อวินาทีเป็นหลักฐานที่ชัดเจนที่สุดจนถึงปัจจุบันว่าส่วนความเร็วของทฤษฎีนี้ยังคงมีอยู่ Cerebras ยังไม่ได้เผยแพร่การเปรียบเทียบราคาแบบละเอียดร่วมกับมาตรฐานนี้

โดยการให้บริการหนึ่งในโมเดลเปิดน้ำหนักที่มีชื่อเสียงที่สุดจากห้องปฏิบัติการปัญญาประดิษฐ์จีนชั้นนำ ซีเรอบรัสกำลังแสดงให้เห็นว่าฮาร์ดแวร์ของตนสามารถจัดการกับโมเดลที่นักพัฒนาต้องการใช้จริง