Cerebras ทำได้ 981 โทเค็นต่อวินาทีบนโมเดล Kimi K2.6 เร็วกว่า GPU Cloud 6.7 เท่า

iconCryptoBriefing
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
Cerebras Systems กำลังส่งมอบ 981 โทเค็นต่อวินาทีสำหรับโมเดล Kimi K2.6 ของ Moonshot AI ซึ่งได้รับการยืนยันโดย Artificial Analysis โมเดล MoE แบบเปิดน้ำหนักที่มีพารามิเตอร์ 1 ล้านล้านตัวนี้ทำงานเร็วขึ้น 6.7 เท่าเมื่อเทียบกับคลาวด์ GPU ที่ดีที่สุด ข้อมูลบนโซ่แสดงให้เห็นถึงการปรับปรุงความหน่วงเวลาถึง 29 เท่าในงานเขียนโค้ด โดย Cerebras สามารถตอบกลับได้ในเวลา 5.6 วินาที เมื่อเทียบกับ 163.7 วินาทีบนจุดสิ้นสุดของ Kimi อย่างเป็นทางการ การวิเคราะห์บนโซ่ยืนยันว่าช่องว่างด้านประสิทธิภาพยังคงคงที่ข้ามภาระงานต่างๆ

Cerebras Systems ขณะนี้ให้บริการ Moonshot AI’s Kimi K2.6 ซึ่งเป็นโมเดล Mixture-of-Experts แบบเปิดน้ำหนักที่มีพารามิเตอร์ 1 ล้านล้านตัว ด้วยความเร็ว 981 โทเค็นเอาต์พุตต่อวินาที ตัวเลขนี้ได้รับการยืนยันจากการทดสอบอย่างอิสระจาก Artificial Analysis ซึ่งแสดงถึงความเร็วเร็วกว่าผู้ให้บริการคลาวด์ GPU ที่ดีที่สุดอันดับสองถึง 6.7 เท่า

สำหรับบริบท ผู้ให้บริการการอนุมานแบบมัธยฐานช้ากว่าประมาณ 23 เท่า

ตัวเลขจริงๆ แล้วดูเป็นอย่างไรในทางปฏิบัติ

ในภารกิจการเขียนโค้ดแบบตัวแทนที่เป็นตัวแทน ด้วยโทเค็นนำเข้า 10,000 โทเค็นและโทเค็นส่งออก 500 โทเค็น ระบบที่ขับเคลื่อนด้วย Cerebras ให้คำตอบครบถ้วนภายใน 5.6 วินาที

โฆษณา

งานเดียวกันบนจุดสิ้นสุดอย่างเป็นทางการของ Kimi ใช้เวลา 163.7 วินาที ซึ่งเป็นการปรับปรุงความล่าช้าแบบ end-to-end ถึง 29 เท่า

โมเดล Kimi K2.6 เองนั้นคุ้มค่าที่จะเข้าใจ ซึ่งพัฒนาโดย Moonshot AI และเปิดตัวเมื่อวันที่ 20 เมษายน 2026 โดยมีคุณสมบัติแบบมัลติโมดัลและเอเจนต์ แม้จำนวนพารามิเตอร์ทั้งหมดจะถึง 1 ล้านล้านพารามิเตอร์ แต่ในแต่ละช่วงเวลาจะมีเพียง 32 พันล้านพารามิเตอร์เท่านั้นที่ถูกเปิดใช้งาน nhờสถาปัตยกรรม MoE

ทำไมสถาปัตยกรรมแบบ wafer-scale จึงเปลี่ยนสมการ

เทคโนโลยีหลักของ Cerebras คือ Wafer-Scale Engine ซึ่งเป็นชิปที่ทำจากซิลิคอนวเฟอร์ทั้งก้อน ชิปแบบดั้งเดิมจะถูกตัดจากวเฟอร์เป็นชิ้นเล็กๆ แต่ Cerebras ข้ามขั้นตอนการตัดและใช้วเฟอร์ทั้งก้อน

Cerebras อ้างว่ามีแบนด์วิดธ์มากกว่า NVLink ของ NVIDIA ถึงกว่า 200 เท่า ซึ่งเป็นเทคโนโลยีการเชื่อมต่อที่ใช้เชื่อม GPU เข้าด้วยกันในคลัสเตอร์ศูนย์ข้อมูล เมื่อทำงานด้านการอนุมานบนโมเดลขนาดใหญ่ จุดที่เป็นข้อจำกัดเกือบเสมอคือแบนด์วิดธ์หน่วยความจำ ไม่ใช่ความสามารถในการประมวลผลแบบดิบ น้ำหนักต่างๆ ต้องถูกอ่านจากหน่วยความจำและส่งไปยังตัวประมวลผลสำหรับแต่ละโทเค็นที่สร้างขึ้น

บริบททางธุรกิจ: บริษัทเพิ่งเข้าตลาดหลักทรัพย์และมีอะไรบางอย่างที่ต้องพิสูจน์

Cerebras ดำเนินการเสนอขายหุ้นครั้งแรกในเดือนพฤษภาคม 2026 ด้วยมูลค่า 95 พันล้านดอลลาร์ ทำให้เป็นการเสนอขายหุ้นครั้งแรกด้านเทคโนโลยีที่ใหญ่ที่สุดในปีนี้

ผลลัพธ์ที่ 981 โทเค็นต่อวินาทีเป็นหลักฐานที่ชัดเจนที่สุดจนถึงปัจจุบันว่าส่วนความเร็วของทฤษฎีนี้ยังคงมีอยู่ Cerebras ยังไม่ได้เผยแพร่การเปรียบเทียบราคาแบบละเอียดร่วมกับมาตรฐานนี้

โดยการให้บริการหนึ่งในโมเดลเปิดน้ำหนักที่มีชื่อเสียงที่สุดจากห้องปฏิบัติการปัญญาประดิษฐ์จีนชั้นนำ ซีเรอบรัสกำลังแสดงให้เห็นว่าฮาร์ดแวร์ของตนสามารถจัดการกับโมเดลที่นักพัฒนาต้องการใช้จริง

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา