ایک ٹریلین پیرامیٹر والی AI ماڈل ایک گرافکس کارڈ پر چل گئی جو زیادہ تر گیمرز میڈیم رینج سمجھتے ہیں۔
ایک چینی AI پرست جسے APFrisco کہا جاتا ہے، نے Moonshot AI کا Kimi K2.5 ماڈل دکھایا، جو ایک Mixture-of-Experts (MoE) بڑی زبان ماڈل ہے جس میں کل 1 ٹریلین پیرامیٹرز ہیں، جو ایک منفرد Nvidia RTX 3060 GPU اور 768 GB Intel Optane Persistent Memory کے ساتھ چل رہا ہے۔ اس سیٹ اپ نے تقریباً فی سیکنڈ چار ٹوکن حاصل کیے، جو پیداواری معیارات کے لحاظ سے سست ہے لیکن متعلقہ ہارڈویئر کو دیکھتے ہوئے حیرت انگیز ہے۔
ایک مڈ ٹائر GPU کیسے ایک تریلین پیرامیٹرز کو ہینڈل کرتی ہے
کیمی K2.5 ایک ساتھ تمام 1 ٹریلین پیرامیٹرز کو فعال نہیں کرتا۔ ہر ٹوکن کے لیے صرف 32 ارب پیرامیٹرز فعال ہوتے ہیں۔ باقی بے کار بیٹھے رہتے ہیں، اپنا موڑ منتظر۔
اس کارائی کے باوجود، ماڈل بہت بڑا ہے۔ مکمل Kimi K2.5 کا وزن تقریباً 630 جیگا باٹ کے قریب ہے۔ کوانتائزڈ ورژن، جو ماڈل کی درستگی کو کم کرکے میموری کی ضروریات کو کم کرتے ہیں، اب بھی تقریباً 381 جیگا باٹ کا حجم رکھتے ہیں۔ اسی لیے APFrisco کو Intel Optane پرسسٹنٹ میموری کی 768 جیگا باٹ کی ضرورت تھی: کوئی بھی معیاری صارفین کی ریم سیٹ اپ اس قسم کے فٹ پرنٹ کو سنبھالنے کے قریب نہیں آتی۔
اوپینٹ PMem DIMMs ایک دلچسپ انتخاب ہیں۔ انٹیل نے اپنی اوپینٹ لائن بند کر دی ہے، جس کا مطلب ہے کہ یہ ماڈیول اب بنیادی طور پر دوسرے ہاتھ کے بازار میں موجود قدیم ہارڈویئر ہیں۔ یہ روایتی DRAM سے سستے ہیں لیکن ہر گیگابائٹ کے لحاظ سے بہت سستے ہیں، جس سے وہ غیر روایتی لیکن حیرت انگیز طور پر عملی حل بن جاتے ہیں بڑے ماڈلز کو لوڈ کرنے کے لیے جو ورنہ انتھراپرائز گریڈ انفراسٹرکچر کی ضرورت رکھتے ہیں۔
RTX 3060 کو 2021 کے شروع میں 12 GB VRAM کے ساتھ لانچ کیا گیا تھا۔ اسے 1080p گیمنگ اور ہلکے تخلیقی کاموں کے لیے ڈیزائن کیا گیا تھا، سرحدی AI ماڈلز چلانے کے لیے نہیں۔
کیمی K2.5 کے عام انسٹالیشن کیسے دکھائی دیتے ہیں
کیمی K2.5 کے لیے اعلیٰ کارکردگی والی انفرینس عام طور پر 8 تک اعلیٰ درجے کے جی پی یو والے کنفیگریشنز کو ہدف بناتی ہے۔ یہ سیٹ اپس 10 سے 300 سے زائد ٹوکن فی سیکنڈ کی رفتار فراہم کرتے ہیں۔
یہ ڈیمو کو Reddit کی r/LocalLLaMA کمیونٹی پر شیئر کیا گیا اور بعد میں Tom’s Hardware نے اسے کور کیا۔
کیمی K2.5 کو مون شٹ AI نے 27 جنوری، 2026 کو جاری کیا تھا۔ اس میں متعدد ماڈل صلاحیتیں شامل ہیں اور اسے تقریباً 15 ٹریلین مخلوط ویژوئل اور ٹیکسٹ ٹوکنز پر تربیت دی گئی تھی۔ یہ ایک اوپن ویٹ ماڈل ہے، جس کا مطلب ہے کہ کوئی بھی اسے ڈاؤن لوڈ کر سکتا اور چلا سکتا ہے، جس کی وجہ سے ای پی فریسکو کا تجربہ ممکن ہوا تھا۔
