اینٹروپک نے کلوڈ کوڈ کو بہتر بنانے کے لیے 280 امریکی ڈالر فی کام پر 1,000 انجینئرز کو ملازمت دی ہے

iconMetaEra
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
اینٹروپک نے کلوڈ کوڈ کو بہتر بنانے کے لیے ایک منصوبہ کا اعلان کیا، جس میں Snorkel AI کے ذریعے 1,000 انجینئرز کو A/B ٹیسٹنگ کے لیے ملازم کیا گیا ہے۔ ہر کام کا اجرت 280 امریکی ڈالر اور مدت ایک گھنٹہ ہے۔ منصوبے کے اعلان میں کوڈ کی محفوظگی اور قابلیت کو بہتر بنانے کے لیے کوششوں پر زور دیا گیا ہے۔ انفلیشن ڈیٹا کا ٹریکنگ ب без رابطہ نہیں ہے لیکن سرمایہ کاروں کے لیے ابھی بھی ایک اہم میٹرک ہے۔ مقصد ماڈل کے آؤٹ پٹ کو ماہرین کی فیڈ بیک کے ذریعے بہتر بنانا ہے۔
انٹروپک نے مارلین پروجیکٹ کے ذریعے کلوڈ کوڈ کو تربیت دی، جس میں ڈیٹا کمپنی اسناکرل اے آئی نے تقریباً 1000 باہری سافٹ ویئر انجینئرز کو ملازمت دی، جنہیں ماڈل کے ذریعہ تیار کردہ کوڈ کے لیے A/B ٹیسٹنگ کے لیے ہر ٹاسک کے لیے 280 امریکی ڈالر کا اجرت دیا گیا،

مضمون کے مصنف، ذریعہ: نیوزھییو

ہال ہی میں، ایک رپورٹ نے کلوڈ کوڈ کے "پیشرفت کے راز" کو سامنے لایا۔

بزنس انسرٹر کے مطابق، Anthropic کے پاس Claude Code کو بہتر بنانے کے لیے ایک خاص منصوبہ ہے، جو تقریباً 1000 سافٹ ویئر انجینئرز کے فیڈ باک کے ذریعے اسے بہتر بن رہا ہے۔

یہ منصوبہ ڈیٹا کمپنی Snorkel AI کے اندر، "Marlin" کے کوڈ نام سے جانا جاتا ہے۔

اس سال جنوری میں، کلود کوڈ کے ہیڈ Boris Cherny نے اعتراف کیا کہ وہ دو ماہ سے ایک بھی لائن کوڈ دستی طور پر نہیں لکھ چکے، اور ایک دن میں کلود نے 22 پل ای ریکسٹس (Pull Request) جمع کرائے، جبکہ پچھلے دن 27، اور یہ سب مدلز نے لکھے تھے۔

اس کے علاوہ یہ بھی کہا جا رہا ہے کہ Anthropic کا اندرونی کوڈ بھی زیادہ تر AI کے ذریعے تخلیق کیا گیا ہے۔

د цیک، یہیں پر ہے۔

ایک طرف، اینتھرپک کے اپنے مرکزی انجینئرز نے بہت سارا کوڈنگ کا کام ماڈل کو سونپ دیا ہے؛ دوسری طرف، وہ تقریباً 1000 باہری انجینئرز کو ملازمت دے کر کلاؤڈ کوڈ کو یہ سکھا رہے ہیں کہ "اچھا کوڈ" کیا ہوتا ہے۔

ایک گھنٹے میں 280 امریکی ڈالر کیا خریدا گیا؟

بزنس انسرٹر کے مطابق، مارلین پروجیکٹ نے باہر کے انجینئرز کو سافٹ ویئر انجینئرنگ کے پس منظر والے ملازمین کے طور پر ملازم رکھا ہے۔ ان کا کام، ایک حقیقی کوڈ ریویو جیسا لگتا ہے۔

عملیات درج ذیل ہے۔ سب سے پہلے، ہزاروں ریپوزٹریز کی فہرست میں سے ایک GitHub کوڈ ریپوزٹری منتخب کریں۔ پھر ایک PR بنائیں، یعنی ڈویلپر کے کوڈ میں تبدیلیاں جمع کرانے کا مرحلہ۔ اس کے بعد، ایک پرومپٹ لکھیں جس میں کام کو واضح طور پر بیان کیا جائے۔

ماڈل دو سیٹس کوڈ جنریٹ کرے گا، اور اس کے بعد باہری انجینئرز کو A/B ٹیسٹ کرنا ہوگا: دونوں آؤٹ پٹس کا موازنہ کرکے بہتر والے کو منتخب کرنا۔

ہر کام کا اجرت 280 امریکی ڈالر ہے، جس میں تقریباً ایک گھنٹہ لگتا ہے۔ کچھ کے لیے Snorkel کے جانچنے والے طبقے کے ساتھ کئی راؤنڈز کی ضرورت ہوتی ہے۔

معیار کا جائزہ لینا، پیداواری سطح کے کوڈ کی درستگی، حفاظت، قابلیت اور قابلیت برقرار رکھنے کا جائزہ لینا ہے۔

دو حقیقی مثالیں دیں۔

ایک ٹاسک میں، باہری انجینئر نے ماڈل کو سسٹم کو ایکزیکشن میٹا ڈیٹا کے طریقے کو دوبارہ ڈیزائن کرنے کے لیے کہا، جس کا مقصد کوڈ کو زیادہ واضح اور بہتر طریقے سے برقرار رکھنا ہے، لیکن فنکشنلٹی کو تبدیل نہیں کرنا۔

دوسرے کام میں، باہری انجینئرز نے MLflow ایک اوپن سورس مشین لرننگ پلیٹ فارم کے لیے سیکورٹی اپڈیٹ کیا، جس میں ماڈل لوڈ کرتے وقت Python پیکیجز ڈاؤن لوڈ کرنے کے دوران ممکنہ کمانڈ انجیکشن کمزوری تھی۔ مواد کی درخواست بہت واضح تھی: کمانڈ انجیکشن کو روکنا تھا، لیکن قانونی pip (Python پیکیج مینیجر) آپشنز کو نقصان نہ پہنچانا تھا۔

ان کاموں کی درخواستیں، ڈیٹا لیبلنگ کے دائرہ کار سے آگے نکل گئی ہیں، جیسے کہ ایک تجربہ کار انجینئر کو اپنے دماغ میں موجود «یہ لکھنا بہتر ہے» کا فیصلہ ماسٹر کو براہ راست کاپی کرنے کی ضرورت ہو۔

واضح طور پر، اینتھرپک نے کوڈ نہیں خریدا، بلکہ تجربہ کار پروگرامرز کے دماغ میں موجود وہ جائزہ کہ کیسے کوڈ کو محفوظ اور صاف تر بنایا جائے۔

کیوں ضروری ہے کہ انجینئر ہو؟

اینٹروپک کیوں اتنا بڑا انتظام کر رہا ہے؟ کیونکہ کلوڈ کوڈ صرف ایک کوڈ لکھنے والی چیٹ باکس نہیں رہ گیا۔

اینٹروپک نے اسے ایک پروجیکٹ لیول AI ایجینٹ کے طور پر تعریف کیا ہے۔ یہ مکمل کوڈ بیس کو پڑھ سکتا ہے، فائلز کے درمیان منصوبہ بندی کر سکتا ہے، تبدیلیاں براہ راست انجام دے سکتا ہے، ٹیسٹ چلا سکتا ہے، اور ناکامی کے نتائج کے مطابق خود کو دوبارہ ترتیب دے سکتا ہے۔

Anthropic کی ویب سائٹ پر Claude Code کی تعریف: ایک ایسا ایجنٹ جو کوڈ ریپوزٹری کو پڑھ سکتا ہے، فائلز کے درمیان تبدیلیاں کر سکتا ہے، ٹیسٹ چلا سکتا ہے، اور جمع کرائے گئے کوڈ کو فراہم کر سکتا ہے۔

اس کا مطلب ہے کہ یہ واقعی فائلیں تبدیل کرے گا، ٹاسکز چلائے گا، اور پورے کوڈ پروجیکٹ تک رسائی حاصل کرے گا۔

اینٹروپک خود بھی اس بات کا اہمیت جانتا ہے، اس لیے اپنے انجینئرنگ بلاگ میں کلاؤڈ کوڈ کے اختیارات، سینڈ باکس اور منظوری کی تھکن (approval fatigue) کے مسائل پر بار بار بات کرتا ہے۔

ڈیفالٹ طور پر، اعلیٰ خطرہ والے فائل تبدیلی یا حکم انجام دینے کے لیے صارف کی منظوری درکار ہوتی ہے؛ بار بار اجازت دینے کے باعث منظوری کی تھکن کو کم کرنے کے لیے، Anthropic نے سینڈ باکسنگ متعارف کرایا ہے، جس سے Claude Code مخصوص فائل سسٹم اور نیٹ ورک حدود کے اندر محفوظ طریقے سے چل سکتا ہے۔

جب ایک AI حکمات چلا سکے اور آن لائن کوڈ میں تبدیلی کر سکے، تو غلطی کی قیمت بالکل مختلف ہو جاتی ہے۔ تربیت کا مقصد بھی تبدیل ہو جاتا ہے: صرف "درست لکھنا" سے بڑھ کر "محفوظ، قابل اعتماد اور قابلِ برقراری" لکھنا۔

یہ چیزیں عام کوڈ کارپس سے نہیں نکل سکتیں۔ یہ پہلے تجربہ کار انجینئرز کے کوڈ ریویو میں چھپی ہوئی تھیں، اور لوگوں سے لوگوں تک کا تجربہ تھا۔ اب، Anthropic انسانی پروگرامنگ ماہرین کو ملازمت دے کر اسے خریدا جانے والا ڈیٹا بنانا چاہتا ہے۔

اسنورکل کا کم توجہ دیا جانے والا "ڈیٹا اسلحہ فروشن"

پورے معاملے کا اصل کردار سنکرل ہے۔

یہ کمپنی 2019 میں اسٹنفورڈ AI لیب سے نکلی، اور اس نے صرف ایک ہی سمت پر بھروسہ کیا: ماشین لرننگ کی کامیابی یا ناکامی کا فیصلہ ڈیٹا کرتا ہے، نہ کہ ماڈل یا کمپوٹیشنل پاور۔

سنکرل کے دو اہم بانی ایلیکس ریٹنر اور اس کے اسٹینفورڈ کے استاد کرس ری ہیں، جنہوں نے سنکرل کے اصلی اکادمیک ماخذ کا ذکر کیا۔

سنکرل AI کے ماسہل، سی ای او ایلیکس ریٹنر

2015ء میں، Snorkel صرف ریٹنر کے ڈاکٹریٹ کے دوران ایک "دن کا منصوبہ" تھا: اس کے بجائے کہ انسانی طور پر ہر ڈیٹا پوائنٹ کو لیبل کرنے کے لیے مہنگا انتظام کیا جائے، ایک پروگرام اور قواعد کے ذریعہ "کمزور نگرانی" (weak supervision) استعمال کی جائے، تاکہ ماڈل انسانی لیبلنگ کے بغیر سیکھ سکے۔

اس خیال کی بنیاد پر، اسکنکل نے 60 سے زیادہ تحقیقی مقالات تیار کیے، اور اس کا اوپن سورس ٹول گوگل اور انٹیل کے استعمال میں آ گیا، جب تک کہ 2019 میں اسے ایک الگ کمپنی میں تقسیم نہیں کر دیا گیا۔

اسنورکل AI کے سہ‌قائم کنندہ، اسٹنفورڈ پروفیسر کریس ری

راتنر کے ماہر مسٹر کریس ری بھی ایک سخت شخص ہیں۔

وہ استنفورڈ کے پروفیسر، میک آرتھر جینیس ایوارڈ وصول کنندہ، مسلسل کاروباری شخصیت ہیں، جن کے پروجیکٹس کو ایپل نے خرید لیا اور انہوں نے SambaNova کی بنیاد رکھی جس کی قیمت ایک وقت میں 50 ارب ڈالر تک پہنچ گئی۔

سب سے زیادہ دلچسپ بات یہ کمپنی کا موڑ ہے۔

اس وقت، اسناکل کا مقصد "دستی نشان زد کرنا، آہستہ، مہنگا اور ناپائیدار" یہ قدیمی مسئلہ حل کرنا تھا، جب AI ڈویلپمنٹ کا تقریباً 80 فیصد وقت ہاتھ سے ڈیٹا نشان زد کرنے میں ضائع ہوتا تھا، اس لیے اسناکل کا ابتدائی خواب یہ تھا کہ انسانوں کو نشان زد کرنے کے کام سے قدرتی طور پر آزاد کیا جائے۔

لیکن اب فرانتیئر ماڈل کے دور میں، سب سے کم اور سب سے قیمتی چیز دوبارہ انسانوں پر واپس آ گئی ہے، صرف اب یہ ڈاکٹر، ڈاکٹر، وکیل، اور تجربہ کار انجینئرز جیسے ماہرین کی ذائقہ اور ججمنٹ ہیں۔ اس کمپنی نے "کم لوگوں کا استعمال" کرکے شروعات کی تھی، لیکن اب اس کا سب سے زیادہ منافع والہ کاروبار فرانتیئر AI کو ٹرین کرنے کے لیے ایک مہنگی ماہرین کی فوج کو منظم کرنا ہے، جس میں مارلن صرف ایک ٹرین ہے۔

اس کا ورک فلو، مارلن پراجیکٹ کی ضروریات کے ساتھ بالکل ملتا جلتا ہے۔

اس کام کے عمل کو Snorkel کی ویب سائٹ یوں بیان کرتی ہے: پہلے کام، اسکورنگ معیار اور ویریفائر تعریف کریں، تاکہ "کیا اچھا ہے" کو واضح کیا جا سکے، پھر ماہر جائزہ لینے والی لائن کو چلائیں، جہاں مصنف، متعدد جائزہ لینے والے، اور آخری فیصلہ کنندہ تینوں درجات میں نگرانی کرتے ہیں، اور پورے عمل کا ریکارڈ رکھا جاتا ہے۔

اسنورکل کی ویب سائٹ کے مطابق: جب جائزہ دینے والوں کے درمیان امتیازی رائے آئے، تو اس کا فیصلہ کیا گیا اور اسے اسکورنگ معیار میں تبدیلی کے ریکارڈ میں درج کر دیا گیا، جس میں ہر تبدیلی کو کون، کب، اور کس بنیاد پر کیا گیا، اس کا پتہ چل سکتا ہے۔

وہ ارزیابی کا ماحول اور ڈیٹا بھی تیار کر دیتا ہے تاکہ ایک ہی مجموعہ کے کام مختلف ماڈل ورژنز پر دہرائے جا سکیں اور قابل دہرائی، قابل موازنہ اسکورز حاصل کیے جا سکیں۔ اسکورز کو صاف اور قابل موازنہ بنانے کے لیے، اسکور کرنے والے کو ورژن کا علم نہیں ہونا چاہیے۔ یہی وجہ ہے کہ ان باہری انجینئرز کو نہیں معلوم کہ وہ کون سا ورژن اسکور کر رہے ہیں۔

قیمتیں بھی بہت کچھ بتاتی ہیں۔

سنکرل ایک عوامی قانونی معاہدہ کا عہدہ فراہم کرتا ہے، جہاں ہر اچھی کوالٹی کے ٹاسک کے لیے 10 سے 100 ڈالر ملتے ہیں؛ جبکہ مارلن کے سافٹ ویئر انجینئرنگ ٹاسکس 280 ڈالر فی ٹاسک ہیں، جو تقریباً ایک گھنٹے میں مکمل ہوتے ہیں، جس سے گھنٹہ بھر کی تنخواہ تقریباً صنعت کے دو اور نصف گنا ہوتی ہے (اسکیل اے آئی اور میرکور انجینئرز کو 110 ڈالر فی گھنٹہ دیتے ہیں)۔ شاندار ماہرین ہفتے میں 3000 ڈالر سے زیادہ کما سکتے ہیں۔

سنکرل نے جن باہری انجینئرز کو ملازمت دیا ہے، ان کی رائے سچ مچھی ہے کہ وہ بہت مہنگے ہیں۔

گوگل، مسٹرل، اینٹھروپک کے نام صارفین کی فہرست میں شامل ہیں۔ مئی 2025 میں، اسنورکل نے D سرکل کی فنڈنگ مکمل کی، جس کی قیمت 13 ارب ڈالر تھی۔

اینٹروپک کے ریونیو ہیڈ کیٹ جینسن نے کہا کہ کلوڈ کی ممکنات کو مکمل طور پر جانچنے کے لیے شعبہ جاتی ماہرین اور انسانی فیڈ بیک کے نئے جائزہ طریقے درکار ہیں، اینٹروپک Snorkel جیسی کمپنیوں کے ساتھ مستقل تعاون جاری رکھے گا۔

ان کمپنیوں — Snorkel، Scale، Mercor — کو پہلے "لیبلنگ پلیٹ فارم" کے طور پر دیکھا جاتا تھا۔ اب وہ ایڈوانسڈ ماڈل کمپنیوں کے پیچھے ایک انجن کی طرح ہیں۔

سب سے ذکاوت مند AI کو کھلانے والی، یہ ایک عالمی سطح پر پھیلی ہوئی، نظر نہ آنے والی ماہرین کی فوج ہے۔

کچھ بڑے کھلاڑی

وہی ڈیٹا حاصل کیا جا رہا ہے

صرف اینتھرپک ہی حقیقی انجینئرنگ کے لیے خرید رہا ہے۔ یہ مقابلہ، کئی بڑے کھلاڑی شامل ہیں، صرف طریقہ کار مختلف ہے۔

کرسر مصنوعات کے ڈیٹا کے راستے پر چل رہا ہے۔

اس نے باقاعدگی سے لکھا ہے: جب صارف پرائیویسی موڈ کو آن کرتا ہے، تو کوڈ کبھی بھی اس یا تیسری پارٹی کے ذریعے AI ٹریننگ کے لیے استعمال نہیں ہوگا؛ صرف جب پرائیویسی موڈ بند کیا جائے، تو کوڈ لائبریری ڈیٹا، پرومپٹس، ایڈٹنگ ایکشنز، اور کوڈ سناپشٹس کا استعمال AI فنکشنلٹی اور ماڈل ٹریننگ کو بہتر بنانے کے لیے کیا جا سکتا ہے۔

کرسر کا ٹیب ماڈل روزانہ 10 ارب سے زائد ایڈٹ کردار پیدا کرتا ہے، جس کی درخواستیں ابتدائی ورژن کے مقابلے میں تقریباً 100 گنا بڑھ گئی ہیں۔ مزید ترقی یافتہ کمپوزر، جو تقویتی سیکھنے (RL) کے ذریعے تربیت یافتہ ہے، ماڈل کو بڑی مقدار میں کوڈنگ کے امور کے ماحول میں ایڈٹ، سرچ اور دیگر ٹولز کے استعمال کا طریقہ سکھاتا ہے تاکہ لمبے دورانیے کے انجینئرنگ کاموں کو نبھایا جا سکے۔

نئے Composer 2.5 میں لاکھوں اقدامات والے طویل مدتی کاموں کو آسان بنایا گیا ہے۔

ماسک نے سرمایہ بندی/خرید کے آپشن کا استعمال کیا ہے۔

اس سال فروری میں، xAI نے SpaceX میں ضم ہو گیا۔ اپریل کے آخر تک، SpaceX نے اس سال Cursor کی ماں کمپنی Anysphere کو 60 ارب ڈالر میں خریدنے کا حق حاصل کیا، یا پہلے 10 ارب ڈالر ادا کر کے گہری تعاون شروع کیا۔ مسک کو Cursor کے پاس موجود عالمی سطح پر سب سے زیادہ فعال حقیقی ڈویلپر سرگرمیوں کے ڈیٹا پر توجہ ہوئی۔

25 مئی کو، ماسک نے X پر اعلان کیا کہ نئی نسل کا بنیادی ماڈل Grok V9-Medium تربیت مکمل ہو چکا ہے، جس کے پیرامیٹرز 1.5T ہیں، جو موجودہ پیداواری ماڈل کے تین گنا ہیں۔ اس نے خاص طور پر اشارہ کیا کہ یہ ابھی تک Cursor ڈیٹا کے ساتھ دوبارہ تربیت کیے بغیر کا عمل ہے، اور اس کے بعد "پروگرامنگ کی صلاحیت کافی زیادہ بہتر ہو جائے گی"۔ ماڈل کا انتظار جون کے وسط تک ہے۔

اس طرح، V9 پہلا گروک ہوگا جو واقعی ڈویلپر کے رویے کے ڈیٹا کو نظام طور پر "کھا چکا" ہے۔

بعد میں، OpenAI نے Codex بھی اسی راستے پر چلایا۔ 2025 میں جاری کیا گیا Codex codex-1 سے چلتا ہے، جسے OpenAI نے حقیقی کوڈنگ کے کاموں پر تقویتی سیکھنے کے ذریعے تربیت دی ہے، تاکہ انسانی انداز کے قریب، PR کی روایات کے مطابق کوڈ لکھا جا سکے اور ٹیسٹس کو بار بار چلایا جا سکے جب تک کہ وہ کامیاب نہ ہو جائیں؛ ہر کام اپنے کوڈ بیس کے ساتھ پہلے سے انسٹال شدہ علیحدہ سینڈ باکس میں چلتا ہے۔

اب Codex کو OpenAI کے ایجینٹک کوڈنگ پلیٹ فارم کے طور پر اپ گریڈ کر دیا گیا ہے، جو اس کے عصری کوڈنگ ماڈل سے چلتا ہے؛ اس کے ہفتہ وار صارفین 5 ملین سے زائد ہیں۔

وہ جس چیز کے لیے مقابلہ کر رہے ہیں، وہ اصل میں ایک ہی چیز ہے: عمل کے ڈیٹا، صرف راستے مختلف ہیں۔

اینٹروپک نے پہلے ماڈل بنایا، لیکن اصل ترقیاتی ماحول کی فیڈ بیک کی کمی تھی، اس لیے انہوں نے تقریباً 1000 انجینئرز کو ملازمت دے کر سافٹ ویئر انجینئرنگ کے عمل کو سیکھنے کے قابل ڈیٹا میں تقسیم کر دیا؛

کرسر کے پاس پہلے سے مصنوعات اور حقیقی صارفین کے رویے کے ساتھ ساتھ اپنے خود کے Tab، Composer وغیرہ پروگرامنگ ماڈلز بھی ہیں۔ لیکن OpenAI، Anthropic کے مقابلے میں، اس کے پاس عام بنیادی ماڈل کا بنیادی ڈھانچہ اور بڑے پیمانے پر تربیت کے لیے کمپوٹنگ طاقت کم ہے؛

ماسک کو بھی ڈیٹا کی کمی ہے، اس لیے وہ صرف کچھ سو ارب ڈالر خرچ کرکے ایک ایسا پروڈکٹ انٹری پوائنٹ خریدنے کی کوشش کر رہا ہے جو مستقل طور پر ڈویلپر سرگرمیوں کا ڈیٹا پیدا کرتا ہے؛

اوپن اے آئی ماڈل اور پروڈکٹس دونوں کی کمی نہیں، اس لیے اس نے خود ایک سینڈ باکس بنایا تاکہ ماڈل حقیقی کوڈنگ ٹاسکس میں تقویتی سیکھنے کے ذریعے بار بار ٹرائل، ٹیسٹ، درستگی اور تکرار کر سکے۔

کچھ مختلف طریقے استعمال کرتے ہیں، لیکن تمام ایک ہی مقصد کی طرف جا رہے ہیں—اپنے AI پروگرامنگ ماڈلز کو حقیقی انجینئرنگ کے میدان کے قریب ترین ڈیٹا سے تربیت دے رہے ہیں۔

حقیقی دفاعی دیوار

انسانی ذائقہ اور ججمنٹ

ایک مقالہ "SWE-chat" جس نے پہلی بار حقیقی ایجینٹ کوڈنگ چیٹس کو بڑے پیمانے پر اکٹھا کیا: 6,000 سیشنز، 63,000 سے زائد صارف پرامپٹس، اور 355,000 ٹول کالز۔

یہ ایک دردناک عدد نکلتا ہے: ایجنٹ کی پیدا کردہ کوڈ کا صرف 44% آخرکار صارفین کے جمع کرانے میں شامل ہوا۔ اس کا ایک سے زیادہ حصہ حذف، تبدیل یا مسترد کر دیا گیا۔

SWE-chat کا عملی جائزہ: vibe coding نے 41% مکالموں میں قبضہ کر لیا ہے، لیکن ایجنٹ کے لکھے گئے کوڈ میں سے صرف 44% ہی آخرکار جمع کیے گئے؛ صارفین نے 44% تعامل کے راؤنڈز میں درستگی، خطا یا روک تھام کے ذریعے ماڈل کے نتائج کو واپس کیا۔

یہ ظاہر کرتا ہے کہ HumanEval جیسے پرانے بینچ مارکس کو اب تک زیادہ استعمال کر لیا گیا ہے، اور صرف اسکور دیکھنا کم اہمیت رکھتا ہے۔ اصل میدان، وہ حقیقی ڈویلپمنٹ عمل کے ڈیٹا ہیں جہاں بار بار تجربہ کیا جاتا ہے، غلطیاں کی جاتی ہیں، اور دوبارہ شروع کیا جاتا ہے۔

جتنا زیادہ مڈل طاقتور ہو، اتنا ہی زیادہ پیسہ خرچ کرنا پڑے گا اس بات کے لیے کہ انسانوں کا وہ حصہ جو اب تک بدل نہیں سکا، وہ حاصل کیا جائے: انجینئرنگ کی سمجھ۔

Anthropic ہر ٹاسک کے لیے 280 امریکی ڈالر خرچ کرتا ہے، اور A/B ووٹنگ کے لیے تقریباً 1000 انجینئرز کو ملازمت دیتा ہے: یہ دباؤ والی سرگرمی، بالکل اسی وجہ سے خریدی جا رہی ہے۔

جو شخص تعمیراتی مقام کو ایسے ڈیٹا میں تبدیل کر سکے جسے ماڈل کھا سکے، وہ AI پروگرامنگ کے اگلے مرحلے میں داخلہ کا ٹکٹ حاصل کر لے گا۔

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔