گوگل نے نئے ہارڈویئر کے بغیر 3 گنا تیز لوکل AI انفرنس کا اعلان کیا

CoinDesk کی رپورٹ:

اپنے کمپیوٹر پر صنعتی ماڈل چلانا بہت اچھا ہے — لیکن ہمیشہ ایسا نہیں ہوتا۔

گمشدہ خصوصیت کا وعدہ، کوئی سبسکرپشن فیس نہیں، اور ڈیٹا آپ کے ڈیوائس سے باہر نہیں جاتا۔ لیکن زیادہ تر لوگوں کے لیے، حقیقت یہ ہے کہ جملوں کے درمیان، کرسر پانچ سیکنڈ تک جھلکتا ہے۔

اس گھٹنے کا ایک نام ہے: انفرینس سپیڈ۔ یہ ماڈل کی ذہانت سے متعلق نہیں بلکہ ایک ہارڈویئر کا مسئلہ ہے۔ معیاری AI ماڈل ہر لفظ کے ٹکڑے (جسے "ٹوکن" کہا جاتا ہے) کو ایک ایک کر کے پیدا کرتا ہے، اور ہر ٹوکن بنانے کے لیے ہارڈویئر کو میموری سے اربوں پیرامیٹرز کو کمپیوٹیشنل یونٹ تک منتقل کرنا پڑتا ہے۔ یہ ڈیزائن خود بخود بہت سست ہے۔ صارفین کے ہارڈویئر پر، یہ بےحد ناگوار ہے۔

زیادہ تر لوگوں کا ایک حل چھوٹے اور کم طاقت والے ماڈل چلانا ہے، یا ایک انتہائی کمپریسڈ ورژن، جسے کوانتائزڈ ماڈل کہا جاتا ہے۔ دونوں حل درست نہیں ہیں، اور دونوں تیزی کے لیے کچھ معیار کا بھی کشیدہ کرتے ہیں۔ جبکہ دونوں چل سکتے ہیں، لیکن یہ وہ ماڈل نہیں ہیں جو آپ حقیقت میں چاہتے ہیں۔

اب گوگل نے ایک مختلف منصوبہ پیش کیا ہے۔ کمپنی نے اپنی Gemma 4 فیملی اوپن ماڈل ٹیکنالوجی کے لیے متعدد ٹوکن پیش گوئی (MTP) ڈرافٹر جاری کر دیا ہے — جس سے ماڈل کی معیار یا استدلال کی صلاحیت کو بالکل متاثر کیے بغیر تین گنا تیزی حاصل کی جا سکتی ہے۔

اس طریقہ کو تخمینی ڈیکوڈنگ کہا جاتا ہے، اور اس کا تصور کئی سالوں سے موجود ہے۔ گوگل کے محققین نے 2022 میں بنیادی تحقیقی مقالہ جاری کیا تھا۔ تاہم، اب تک یہ خیال صرف اس لیے مقبول ہوا ہے کہ اسے بڑے پیمانے پر چلانے کے لیے مناسب آرکیٹیکچر درکار ہوتا ہے۔

سادہ الفاظ میں، اس کا طریقہ کار یہ ہے: بجائے اس کے کہ ایک طاقتور بڑا ماڈل تمام کام اکیلے کرے، اسے ایک چھوٹے “پیش گوئی” ماڈل کے ساتھ جوڑا جاتا ہے۔ پیش گوئی ماڈل تیز اور سستا ہے—یہ ایک ساتھ متعدد ٹوکنز کی پیش گوئی کر سکتا ہے، اور اس کا وقت بنیادی ماڈل کے ایک ٹوکن پیدا کرنے میں لگنے والے وقت سے بھی کم ہوتا ہے۔ پھر، بڑا ماڈل صرف ایک بار ساری پیش گوئیوں کی جانچ کرتا ہے۔ اگر پیش گوئی درست ہو، تو مکمل تسلسل حاصل کرنے کا صرف ایک فارورڈ پاس کا خرچ آتا ہے۔

گوگل کے مطابق“اگر مقصد ماڈل اس منصوبے سے متفق ہو جائے، تو وہ ایک فارورڈ پاس میں پوری ترتیب کو قبول کر لے گا — اور اس عمل کے دوران اپنے اضافی ٹیگز بھی پیدا کرے گا۔”

کوئی نقصان نہیں: بڑے ماڈل — جیسے Gemma 4 کا 31 ارب ڈینس ورژن — اب بھی ہر ٹوکن کی تصدیق کرتے ہیں، اور آؤٹ پٹ کی معیار بالکل وہی رہتا ہے۔ آپ صرف اس وقت کے دوران استعمال نہ ہونے والی کمپوٹیشنل طاقت کا فائدہ اٹھا رہے ہیں جب یہ سست چل رہی ہوتی ہے۔

گوگل نے کہا کہ اسکیچ ڈرائنگ ماڈل اور ہدف ماڈل کلید-قدرتی کیش (KV کیش) کو شیئر کرتے ہیں، جو ایک میموری سٹرکچر ہے جو پہلے سے معالجہ شدہ سیاق و سباق کو محفوظ کرتی ہے، اس طرح وہ بڑے ماڈلز کو پہلے سے معلوم معلومات کو دوبارہ کمپیوٹ کرنے کا وقت ضائع نہیں کرتے۔ موبائل اور رازبری پائی ڈیوائسز کے لیے ڈیزائن کیے گئے چھوٹے ایج ماڈلز کے لیے، ٹیم نے تولید کے وقت کو مزید کم کرنے کے لیے ایک موثر کلاسٹرنگ ٹیکنالوجی بھی تعمیر کی ہے۔

یہ مساوی طور پر متن پیدا کرنے کے لیے AI کے شعبے میں ایک منفرد کوشش نہیں ہے۔ ڈیفیوژن پر مبنی زبانی ماڈل — جیسے Inception Labs کا Mercury — ایک بالکل مختلف طریقہ استعمال کرتے ہیں: وہ ایک ٹوکن ایک وقت میں نہیں پیش کرتے، بلکہ ایک شور سے شروع کرتے ہیں اور پورے پیداوار کو دہرائی جانے والی بہتری کے ذریعے بہتر بناتے ہیں۔ نظریہ طور پر یہ تیز ہوتا ہے، لیکن ڈیفیوژن زبانی ماڈل کوالٹی کے لحاظ سے روایتی ٹرانسفارمر ماڈلز کے ساتھ مقابلہ نہیں کر سکتے، اس لیے انہیں زیادہ تر تحقیقی موضوع کے طور پر دیکھا جاتا ہے، نہ کہ عملی ٹول کے طور پر۔

اس لیے تخمینی ڈیکوڈنگ مختلف ہے کیونکہ یہ بنیادی ماڈل کو بالکل تبدیل نہیں کرتی۔ یہ ایک سروس کا بہترین طریقہ ہے، نہ کہ ایک آرکیٹیکچر کا تبادلہ۔ آپ جو Gemma 4 ورژن چلا رہے تھے، وہ تیز ہو جائے گا۔

عملی اثرات واقعی طور پر نمایاں ہیں۔ گوگل کے اپنے بنچ مارکس کے مطابق، Nvidia RTX Pro 6000 ڈیسک ٹاپ GPU پر چلنے والے Gemma 4 26B چپ پر MTP ڈرافٹ کو فعال کرنے سے فی سیکنڈ ٹوکن پروسیسنگ کی شرح تقریباً دوگنا ہو جاتی ہے۔ Apple Silicon چپس پر، 4 سے 8 درخواستوں کے بیچ سائز سے تقریباً 2.2 گنا تیزی حاصل ہوتی ہے۔ حالانکہ تمام صورتحال میں 3 گنا کی حد حاصل نہیں ہوتی، لیکن یہ “تھوڑا سا استعمال کے قابل” اور “کافی تیز جس سے عملی طور پر استعمال کیا جا سکے” کے درمیان نمایاں فرق ہے۔

سیاق و سباق اہم ہے۔ جب چینی ماڈل DeepSeek نے جنوری 2025 میں مارکیٹ کو حیران کر دیا۔ — ایک دن میں نیوڈیا کی مارکیٹ ویلیو کو 600 ارب ڈالر تک کم کر دیا — اس کا بنیادی سبق یہ ہے کہ صرف کمپوٹیشنل کابیلیٹی بڑھانے کے بجائے کارکردگی میں اضافہ زیادہ اثر رکھتا ہے۔ زیادہ ذکاوت سے چلنے کا طریقہ صرف ہارڈویئر میں اضافہ کرنے سے بہتر ہے۔ گوگل کا MTP ڈرائیونگ ٹول اس راستے پر ایک اور قدم ہے، صرف اس کا مقصد صارفین کا گروہ ہے۔

پوری صنعت مصنوعی ذہانت اب ایک مثلث کی شکل میں ہے، جو استدلال، تربیت اور یادداشت کے تین حصوں سے مل کر بنا ہے۔ کسی بھی شعبے میں کوئی کامیابی پورے生态系统 کو متاثر کرے گی۔ DeepSeek کی تربیت کا طریقہ (کم سطح کے ہارڈویئر کا استعمال کرتے ہوئے طاقتور ماڈل بنانا) اس کا ایک مثال ہے، جبکہ گوگل کا …TurboQuant (کوالٹی کو کم نہ کرتے ہوئے مصنوعی ذہانت کی یادداشت کو کم کرنا) دوسری تحقیقی مقالہ ہے۔ دونوں مقالوں نے مارکیٹ میں گرنے کا باعث بنایا، کیونکہ تمام کمپنیاں اس کے جوابات تلاش کرنے میں مصروف ہیں۔

گوگل کا کہنا ہے کہ یہ ڈرائنگ ٹول "جوابی رفتار میں اضافہ کر سکتا ہے: نیاریل ٹائم چیٹ، مکمل طور پر آواز والے ایپلیکیشنز اور ایجینٹ ورک فلو کی تاخیر کو کافی حد تک کم کر سکتا ہے" — جن کاموں کے لیے کم تاخیر ضروری ہوتی ہے تاکہ وہ حقیقی طور پر کام کر سکیں۔

استعمال کے منظر کو فوراً اور واضح بنائیں: ایک مقامی کوڈ اسسٹنٹ جو تاخیر نہ کرے؛ ایک آواز کا انٹرفیس جو آپ کو اپنے سوال کو بھولنے سے پہلے جواب دے دے؛ ایک ذکی ورک فلو جو تین سیکنڈ کا انتظار کیے بغیر مراحل مکمل کر دے۔ یہ سب کچھ آپ کے موجودہ ہارڈویئر پر ممکن ہے۔

MTP پروجیکٹ اب لائیو ہے 拥抱脸 یہ Apache 2.0 لائسنس کے تحت Kaggle اور Ollama کے ساتھ مطابقت رکھتے ہیں۔ یہ فوری استعمال کے لیے تیار ہیں اور vLLM، MLX، SGLang اور Hugging Face Transformers کو سپورٹ کرتے ہیں۔