سالوں تک، بڑے زبانی ماڈلز ایک بہت تیز ٹائپسٹ کی طرح کام کرتے رہے: ایک لفظ ایک وقت میں، بائیں سے دائیں، پیچھے نہیں دیکھتے۔ DiffusionGemma اس منصوبہ کو بالکل ختم کر دیتا ہے۔ یہ اوپن ماڈل ڈفیوژن ٹیکنیکس کا استعمال کرتا ہے تاکہ مکمل متن کے بلاکس کو ایک ساتھ تخلیق کیا جا سکے، جس سے پارامیٹرک ماڈلز کے مقابلے میں تخلیق کی رفتار تین گنا تک تیز ہو جاتی ہے۔
ڈیفیوژن جیما کیسے کام کرتا ہے
سنتی لینگویج ماڈلز متن کو ترتیب سے جنریٹ کرتے ہیں۔ ہر ٹوکن (تقریباً ایک لفظ یا لفظ کا حصہ) ایک کے بعد ایک پیدا ہوتا ہے، جس میں ہر نیا ٹوکن اس سے پہلے کے سب کچھ پر منحصر ہوتا ہے۔
ڈیفیوژن جیما، تصویر پیدا کرنے کو انقلابی بنانے والی اسی تکنیکوں کے خاندان سے ادھار لیتا ہے۔ ڈیفیوژن ماڈلز اس طرح کام کرتے ہیں کہ وہ شور سے شروع ہوتے ہیں اور اسے تدریجاً متناسب نتیجہ بنانے کے لیے بہتر بناتے ہیں۔ متن پر لاگو کرنے پر، اس کا مطلب ہے کہ ماڈل ایک جواب کے متعدد حصوں پر ایک ساتھ کام کر سکتا ہے، بلکہ ہر الفاظ کو ختم ہونے کا انتظار کیے بغیر اگلے پر منتقل ہو سکتا ہے۔
evaluations میں، DiffusionGemma نے تقریباً 1,479 ٹوکن فی سیکنڈ کی نمونہ لینے کی رفتار حاصل کی ہے۔ یہ 4x رفتار میں بہتری ایک نظریہ حد نہیں ہے۔ یہ ایک پیمانہ ہے۔
چونکہ ڈیفیوژن ماڈلز ہر ٹوکن کو مستقل طور پر مقرر کرنے کے بجائے اپنے آؤٹ پٹ کو دہرائی جانے والی طور پر بہتر بناتے ہیں، اس لیے ڈیفیوژن جیما جنریشن کے عمل کے دوران اپنی غلطیوں کو ترمیم اور درست کر سکتا ہے۔ روایتی ماڈلز کو ایسا لطف نہیں ملتا۔ ایک بار جب کوئی لفظ تخلیق ہو جائے، تو وہ مستقل ہو جاتا ہے، اور تمام آگے کی غلطیاں آگے بڑھتی رہتی ہیں۔
ہارڈویئر کا پہلو اور گوگل ڈیپ مائنڈ کا تعلق
ڈیفیوژن جیما، گوگل ڈیپ مائنڈ کے جیمینی ڈیفیوژن سے متاثر ہے، جس نے موثر متن پیدا کرنے کے لیے ڈیفیوژن بنیادی طریقہ کار کا آغاز کیا۔
ڈیفیوژن جیما کو خاص طور پر NVIDIA پلیٹ فارمز، جن میں RTX PRO اور DGX سسٹم شامل ہیں، کے لیے بہتر بنایا گیا ہے، جس کا مطلب یہ ہے کہ ڈویلپرز ماڈل کو مقامی طور پر تیز رفتار کارکردگی کے ساتھ چلا سکتے ہیں اور صرف کلاؤڈ API پر انحصار نہیں کرتے۔
بینچ مارک جائزہ کے مطابق، ڈیفیوژن گیما اپنی رفتار کے فائدے کو برقرار رکھتے ہوئے بڑے ماڈلز کے مقابلے میں قابلِ موازنہ کارکردگی دکھاتا ہے۔ حوالہ کے طور پر، جیمینی ڈیفیوژن بینچ مارکس پر 30.9% اسکور کرتا ہے جبکہ جیمینی 2.0 فلیش-لائٹ 28.5% اسکور کرتا ہے۔
ای آئی کے منظر اور سرمایہ کاروں کے لیے اس کا کیا مطلب ہے
جس کاروبار کو تیزی سے متن پیدا کرنے پر انحصار ہے، اس کے لیے اثرات واضح ہیں۔ مواد کی تخلیق کے پائپ لائنز، صارفین کی خدمت کی خودکاری، کوڈ تخلیق کے ٹولز، اور جہاں لیٹنسی اہم ہو، وہ سب 4 گنا تیزی سے فائدہ اٹھا سکتے ہیں۔ تیز تر انفرنس کا مطلب یہ بھی ہے کہ ہر کوئری کے لیے کمپیوٹ کی لاگت کم ہو جاتی ہے، جو AI کو بڑے پیمانے پر لاگو کرنے کی مالیات پر ب без رابطہ اثر ڈالتا ہے۔
اہم خطرہ اس کی قبولیت ہے۔ ایک ماڈل کنٹرول شدہ جانچوں میں اچھی طرح سے بینچ مارک کر سکتا ہے اور پھر بھی حقیقی دنیا کی بے ترتیب اور غیر متوقع ضروریات کے ساتھ مشکل کا سامنا کر سکتا ہے۔ اس کا کھلا ہونا اور وسیع پیمانے پر دستیاب NVIDIA ہارڈویئر کے لیے بہتر بنایا جانا کم از کم دو عام رکاوٹوں کو ختم کر دیتا ہے۔
