โมเดล AI ที่มีพารามิเตอร์หนึ่งล้านล้านตัว刚刚ทำงานบนการ์ดจอที่ผู้เล่นทั่วไปถือว่าอยู่ในระดับปานกลาง
ผู้ชื่นชอบปัญญาประดิษฐ์จากจีนที่รู้จักในชื่อ APFrisco ได้แสดงโมเดล Kimi K2.5 ของ Moonshot AI ซึ่งเป็นโมเดลภาษาขนาดใหญ่แบบ Mixture-of-Experts (MoE) ที่มีพารามิเตอร์ทั้งหมด 1 ล้านล้านพารามิเตอร์ ทำงานบน GPU Nvidia RTX 3060 เดี่ยวพร้อมหน่วยความจำถาวร Intel Optane ขนาด 768 GB การตั้งค่านี้สามารถประมวลผลได้ประมาณสี่โทเค็นต่อวินาที ซึ่งช้าเมื่อเทียบกับมาตรฐานการผลิต แต่น่าทึ่งมากเมื่อพิจารณาจากฮาร์ดแวร์ที่ใช้
วิธีที่ GPU ระดับกลางจัดการกับพารามิเตอร์ล้านล้าน
Kimi K2.5 ไม่ได้เปิดใช้งานพารามิเตอร์ทั้ง 1 ล้านล้านค่าพร้อมกันทั้งหมด สำหรับแต่ละโทเค็นที่สร้างขึ้น จะมีการเปิดใช้งานเพียง 32 พันล้านพารามิเตอร์เท่านั้น ส่วนที่เหลือจะอยู่ในสภาวะหยุดนิ่ง รอคอยคิวของตนเอง
แม้จะใช้เทคนิคเพิ่มประสิทธิภาพนั้น โมเดลนี้ก็ยังมีขนาดใหญ่มาก โมเดล Kimi K2.5 แบบเต็มรูปแบบมีน้ำหนักประมาณ 630 GB รุ่นที่ถูกควอนไทซ์ ซึ่งบีบอัดความแม่นยำของโมเดลเพื่อลดความต้องการหน่วยความจำ ยังคงมีขนาดประมาณ 381 GB นั่นจึงเป็นเหตุผลที่ APFrisco ต้องใช้หน่วยความจำถาวร Intel Optane ขนาด 768 GB: เซ็ตอัพหน่วยความจำผู้บริโภคทั่วไปไม่มีทางจัดการกับขนาดเช่นนี้ได้
Optane PMem DIMMs เป็นตัวเลือกที่น่าสนใจ Intel ได้เลิกผลิตสายผลิตภัณฑ์ Optane แล้ว ซึ่งหมายความว่าโมดูลเหล่านี้ตอนนี้เป็นฮาร์ดแวร์รุ่นเก่าที่ยังคงมีอยู่ในตลาดมือสอง พวกมันช้ากว่า DRAM แบบดั้งเดิม แต่ถูกกว่ามากต่อกิโลไบต์ ทำให้เป็นทางเลือกที่ไม่ธรรมดาแต่กลับมีประโยชน์อย่างน่าประหลาดใจสำหรับการโหลดโมเดลขนาดใหญ่ที่ปกติแล้วต้องใช้โครงสร้างพื้นฐานระดับองค์กร
RTX 3060 เปิดตัวในต้นปี 2021 พร้อม VRAM 12 GB โดยออกแบบมาสำหรับการเล่นเกมความละเอียด 1080p และงานสร้างสรรค์ที่ไม่หนักหน่วง ไม่ใช่สำหรับการรันโมเดล AI ระดับแนวหน้า
การปรับใช้ Kimi K2.5 ทั่วไปมีลักษณะเป็นอย่างไร
การประมวลผลแบบมีประสิทธิภาพสูงสำหรับ Kimi K2.5 มักมุ่งเป้าไปที่การตั้งค่าที่มี GPU ระดับสูงสูงสุด 8 ตัว การตั้งค่าเหล่านี้ให้ความเร็วอยู่ระหว่าง 10 ถึงมากกว่า 300 โทเค็นต่อวินาที
การสาธิตถูกแชร์บนชุมชน r/LocalLLaMA ของ Reddit และต่อมาได้รับการรายงานโดย Tom’s Hardware
Kimi K2.5 ถูกเปิดตัวเมื่อวันที่ 27 มกราคม 2026 โดย Moonshot AI มีความสามารถแบบมัลติโมดัลและได้รับการฝึกด้วยโทเค็นภาพและข้อความรวมประมาณ 15 ล้านล้านโทเค็น เป็นโมเดลแบบเปิดน้ำหนัก หมายความว่าทุกคนสามารถดาวน์โหลดและรันได้ ซึ่งเป็นเหตุผลหลักที่ทำให้การทดลองของ APFrisco เป็นไปได้
