Anthropic ने Marlin प्रोजेक्ट के माध्यम से Claude Code को प्रशिक्षित किया, जिसमें डेटा कंपनी Snorkel AI ने लगभग 1000 बाहरी सॉफ्टवेयर इंजीनियरों को भर्ती किया, जिन्हें मॉडल द्वारा उत्पन्न कोड के लिए A/B टेस्टिंग के प्रत्येक कार्य के लिए 280 डॉलर का प्रतिफल दिया गया,
लेखक, स्रोत: न्यूज़िज़यन
हाल ही में, एक रिपोर्ट ने क्लॉड कोड के "प्रगति के रहस्य" को सामने रखा।
बिजनेस इंसाइडर के अनुसार, Anthropic के पास Claude Code को बेहतर बनाने के लिए एक विशेष प्रोजेक्ट है, जो लगभग 1000 सॉफ्टवेयर इंजीनियर्स के प्रतिक्रियाओं के माध्यम से इसे उत्कृष्ट बना रहा है।
इस प्रोजेक्ट को डेटा कंपनी Snorkel AI के अंदर «Marlin» के कोड नाम से जाना जाता है।

इस साल जनवरी में ही, क्लॉड कोड के प्रबंधक बोरिस चेर्नी ने खुलासा किया कि उन्होंने दो महीने से अधिक समय से एक भी पंक्ति कोड हाथ से नहीं लिखी है, एक दिन में क्लॉड ने 22 पुल रिक्वेस्ट (Pull Request) जमा किए, और पिछले दिन 27, और सभी मॉडल द्वारा लिखे गए थे।
इसके अलावा, यह भी रिपोर्ट किया गया है कि एंथ्रोपिक का अधिकांश आंतरिक कोड AI द्वारा उत्पन्न किया गया है।
Interesting place, right here.
एक ओर, एंथ्रोपिक के अपने प्रमुख इंजीनियर्स ने बड़ी मात्रा में कोडिंग का काम मॉडल को सौंप दिया है; दूसरी ओर, यह लगभग 1000 बाहरी इंजीनियर्स को भुगतान कर रहा है ताकि वे क्लॉड कोड को "अच्छा कोड" क्या है, उसे हाथ से सिखाएं।
280 डॉलर में एक घंटे में क्या खरीदा गया?
बिजनेस इंसाइडर के अनुसार, मैरलिन प्रोजेक्ट द्वारा भर्ती किए गए बाहरी इंजीनियर्स के पास सॉफ्टवेयर इंजीनियरिंग की पृष्ठभूमि है। उनका काम, एक वास्तविक कोड रिव्यू की तरह लगता है।
प्रक्रिया लगभग इस प्रकार है। सबसे पहले, हजारों रिपॉजिटरी की सूची से एक GitHub कोड रिपॉजिटरी चुनें। फिर एक PR बनाएं, जो डेवलपर्स द्वारा कोड में परिवर्तन जमा करने का कदम है। फिर एक प्रॉम्प्ट लिखें जो कार्य को स्पष्ट रूप से समझाए।
मॉडल दो सेट कोड उत्पन्न करेगा, और इन बाहरी इंजीनियर्स का अगला काम A/B टेस्टिंग होगा: दोनों आउटपुट की तुलना करके बेहतर वाला चुनना।
प्रत्येक कार्य के लिए 280 डॉलर का भुगतान होता है, जिसमें लगभग एक घंटा लगता है। कुछ के लिए Snorkel के समीक्षा स्तर के साथ कई चक्रों की आवश्यकता होती है।
मानदंडों का मूल्यांकन उत्पादन स्तर के कोड की सहीता, सुरक्षा, विश्वसनीयता और रखरखाव योग्यता पर किया जाता है।
दो वास्तविक उदाहरण दें।
एक कार्य में, बाहरी इंजीनियर ने मॉडल को सिस्टम को निष्पादन मेटाडेटा को संभालने के तरीके को पुनर्गठित करने के लिए कहा, जिसका लक्ष्य कोड को अधिक स्पष्ट और आसानी से रखरखाव योग्य बनाना है, लेकिन कार्य को नहीं बदलना है।
एक अन्य कार्य में, एक बाहरी इंजीनियर ने MLflow ओपन-सोर्स मशीन लर्निंग प्लेटफॉर्म के लिए सुरक्षा ठीक किया, जिसमें मॉडल लोड करते समय Python पैकेज डाउनलोड करने के दौरान कमांड इंजेक्शन वल्नरेबिलिटी शामिल थी। आवश्यकताएं स्पष्ट थीं: कमांड इंजेक्शन को रोकना था, लेकिन कानूनी pip (Python पैकेज मैनेजर) विकल्पों को प्रभावित नहीं करना था।
इन कार्यों की आवश्यकताएँ डेटा लेबलिंग के परिसर से अधिक हैं; यह एक अनुभवी इंजीनियर को अपने मन में बनी हुई “ऐसा लिखना बेहतर है” की जजमेंट को मॉडल को सीधे कॉपी करने जैसा है।
स्पष्ट रूप से, एंथ्रोपिक ने कोड नहीं, बल्कि एक अनुभवी प्रोग्रामर के मस्तिष्क में यह निर्णय खरीदा कि कोड को कैसे अधिक सुरक्षित और साफ़ लिखा जाए।
क्यों इंजीनियर ही क्यों होना चाहिए
एंथ्रोपिक क्यों इतना बड़ा प्रयास कर रहा है? क्योंकि क्लॉड कोड अब केवल कोड लिखने का एक चैट बॉक्स नहीं है।
Anthropic ने इसे प्रोजेक्ट-लेवल के AI एजेंट के रूप में परिभाषित किया है। यह पूरे कोडबेस को पढ़ सकता है, फाइलों के बीच योजना बना सकता है, परिवर्तन सीधे लागू कर सकता है, परीक्षण चला सकता है, और विफलता के परिणामों के आधार पर स्वयं को दोहरा सकता है।

Anthropic की वेबसाइट पर Claude Code की परिभाषा: एक ऐसा एजेंट जो कोड रिपॉजिटरी पढ़ सकता है, फाइलों के बीच परिवर्तन कर सकता है, टेस्ट चला सकता है और सबमिट किए गए कोड को डिलीवर कर सकता है।
इसका मतलब है कि यह वास्तव में फाइलें बदलेगा, कार्य चलाएगा और पूरे कोड प्रोजेक्ट को एक्सेस करेगा।
एंथ्रोपिक खुद इस बात के महत्व को समझता है, इसलिए इंजीनियरिंग ब्लॉग में क्लॉड कोड के अधिकार, सैंडबॉक्स और अनुमोदन थकान (approval fatigue) की समस्याओं पर बार-बार बात करता है।
डिफ़ॉल्ट रूप से, उच्च जोखिम वाले फ़ाइल संशोधन या कमांड निष्पादन के लिए उपयोगकर्ता की मंजूरी की आवश्यकता होती है; बार-बार अनुमति देने से होने वाली मंजूरी थकान को कम करने के लिए, Anthropic ने sandboxing भी पेश किया है, जिससे Claude Code एक पूर्वनिर्धारित फ़ाइल सिस्टम और नेटवर्क सीमाओं के भीतर सुरक्षित रूप से चल सके।
जब एक AI कमांड चला सकता है और ऑनलाइन कोड को बदल सकता है, तो गलतियों की लागत पूरी तरह से अलग हो जाती है। ट्रेनिंग लक्ष्य भी बदल जाता है: 'सही लिखने' से बढ़कर, 'सुरक्षित, विश्वसनीय और रखरखाव योग्य लिखने' की ओर।
ये चीजें सामान्य कोड कॉर्पस से नहीं निकाली जा सकतीं। ये पहले अनुभवी सॉफ्टवेयर इंजीनियर्स के कोड रिव्यू में छिपी रहती थीं, जो मनुष्य से मनुष्य तक अनुभव के रूप में संचरित होती थीं। अब, Anthropic मानव प्रोग्रामिंग विशेषज्ञों को भर्ती करके इसे खरीदा जा सकने वाला डेटा बनाना चाहता है।
Snorkel का अवमूल्यांकित "डेटा अस्त्र व्यापारी"
सच्चाई का वास्तविक केंद्र स्नॉर्कल है।
यह कंपनी 2019 में स्टैनफोर्ड AI लैब से निकली, और इसने एक ही दिशा पर निवेश किया: मशीन लर्निंग की सफलता या असफलता को निर्धारित करने वाला डेटा है, न कि मॉडल या कंप्यूटेशनल पावर।
Snorkel के दो महत्वपूर्ण संस्थापक एलेक्स रैटनर और उनके स्टैनफोर्ड के मार्गदर्शक क्रिस रे हैं, जिन्होंने Snorkel के मुख्य शैक्षणिक स्रोत के बारे में कहा है।

स्नॉर्केल एआई के सह-संस्थापक और सीईओ एलेक्स रैटनर
2015 में, Snorkel अभी भी Ratner के डॉक्टरेट के दौरान एक "बेले का प्रोजेक्ट" था: डेटा को हाथ से लेबल करने के लिए महंगे लोगों को नौकरी पर रखने के बजाय, वह प्रोग्राम और नियमों का उपयोग करके "कमजोर सुपरवाइजन" (weak supervision) करना चाहता था, ताकि मॉडल मनुष्य द्वारा हर आइटम को लेबल किए बिना सीख सके।
इस दृष्टिकोण के साथ, स्नॉर्कल ने 60 से अधिक पेपर लिखे, और ओपन-सोर्स टूल का उपयोग Google और Intel द्वारा किया गया, जब तक कि 2019 में इसे एक कंपनी में अलग नहीं किया गया।

स्नॉर्केल एआई के सह-संस्थापक, स्टैनफोर्ड प्रोफेसर क्रिस रे
रैटनर के मार्गदर्शक क्रिस रे भी एक कठोर व्यक्ति हैं।
वह स्टैनफोर्ड के प्रोफेसर, मैकआर्थर टैलेंट अवॉर्ड विजेता, और एक क्रमिक उद्यमी हैं, जिनके द्वारा शुरू किए गए प्रोजेक्ट्स को ऐप्पल ने अधिग्रहित किया था, और जिन्होंने SambaNova की स्थापना की थी, जिसकी कीमत एक समय 50 बिलियन डॉलर तक पहुंच गई थी।
सबसे दिलचस्प बात यह है कि यह कंपनी अपना मोड़ लेती है।
स्नॉर्कल का उद्देश्य तब का बड़ा समस्या था — "मैनुअल अनुदेशन धीमा, महंगा और अस्थिर है"। उस समय AI विकास का लगभग 80% समय हस्ताक्षरित डेटा पर खर्च होता था, इसलिए स्नॉर्कल की प्रारंभिक अवधारणा थी कि लोगों को अनुदेशन से जितना संभव हो, मुक्त किया जाए।
लेकिन अब अग्रणी मॉडल के युग में, सबसे दुर्लभ और सबसे कीमती चीज़ फिर से इंसानों पर लौट आई है, बस अब यह डॉक्टर, वकील, अनुभवी इंजीनियर जैसे विशेषज्ञों की स्वाद और निर्णय क्षमता है। इस कंपनी ने 'कम लोगों का उपयोग' करके शुरुआत की थी, लेकिन आज इसका सबसे लाभदायक व्यवसाय अग्रणी AI को प्रशिक्षित करने के लिए महंगी विशेषज्ञों की एक सेना को संगठित करना है, जिसमें मारलिन केवल एक प्रोजेक्ट है।
इसका वर्कफ्लो, मारलिन प्रोजेक्ट की आवश्यकताओं के साथ बिल्कुल मेल खाता है।
Snorkel की वेबसाइट इस वर्कफ्लो को इस प्रकार वर्णित करती है: सबसे पहले कार्य, मूल्यांकन मापदंड और वैलिडेटर को परिभाषित करें, जिससे "अच्छा क्या है" यह सीमा तय हो जाए, फिर विशेषज्ञ समीक्षा पाइपलाइन चलाएं, जिसमें लेखक, कई समीक्षक और अंतिम निर्णायक क्रमिक रूप से समीक्षा करते हैं, और पूरी प्रक्रिया का रिकॉर्ड बना रहता है।

Snorkel की वेबसाइट के अनुसार: जब समीक्षा अंकन में अंतर होता है, तो इसका निर्णय लिया जाता है और स्कोरिंग मानदंड में परिवर्तन की रिकॉर्डिंग की जाती है; प्रत्येक परिवर्तन को यह ट्रैक किया जा सकता है कि किसने, कब, और किस आधार पर किया।
यह आकलन परिवेश और डेटा भी सेट कर देता है, ताकि एक ही सेट के कार्यों को विभिन्न मॉडल संस्करणों पर दोहराया जा सके और पुनरुत्पादनीय, तुलनीय स्कोर प्राप्त किए जा सकें। और स्कोर को स्वच्छ और तुलनीय बनाए रखने के लिए, स्कोरिंग करने वाले व्यक्ति को संस्करण के बारे में पता नहीं होना चाहिए। यही कारण है कि इन बाहरी इंजीनियर्स को नहीं पता कि वे किस संस्करण का मूल्यांकन कर रहे हैं।
The quote also speaks volumes.
Snorkel पर एक खुला कानूनी दिशा अनुबंध पद है, जहां प्रत्येक उच्च गुणवत्ता वाला कार्य 10 से 100 डॉलर है; जबकि Marlin के सॉफ्टवेयर इंजीनियरिंग कार्य 280 डॉलर प्रति कार्य, लगभग एक घंटे में होते हैं, जिससे प्रति घंटे आय लगभग समकक्षों की दो गुना से अधिक होती है (Scale AI, Mercor इंजीनियरों को प्रति घंटे 110 डॉलर देते हैं)। शीर्ष विशेषज्ञ प्रति सप्ताह 3000 डॉलर से अधिक कमा सकते हैं।
Snorkel द्वारा भर्ती किए गए इन बाहरी इंजीनियरों की प्रतिक्रिया वास्तव में महंगी है।
गूगल, मिस्ट्रल, एंथ्रोपिक की सूची में ग्राहक हैं। मई 2025 में, स्नॉर्केल ने डी फंडिंग पूरी की, जिसका आकलन 13 अरब डॉलर है।
एंथ्रोपिक के रेवेन्यू हेड केट जेनसन ने कहा कि क्लॉड की पूरी क्षमता को जागृत करने के लिए क्षेत्र विशेषज्ञों और मानवीय प्रतिक्रिया पर आधारित नए मूल्यांकन तरीकों की आवश्यकता होगी, और एंथ्रोपिक स्नॉर्कल जैसी कंपनियों के साथ लगातार सहयोग करता रहेगा।
Snorkel, Scale, Mercor जैसी कंपनियाँ पहले «लेबलिंग प्लेटफॉर्म» के रूप में मानी जाती थीं। आज वे अग्रणी मॉडल कंपनियों के पीछे की अदृश्य सप्लाई चेन बन गई हैं।
जो दुनिया भर में फैली हुई, अदृश्य विशेषज्ञों की सेना है, वही सबसे बुद्धिमान AI को खिलाती है।

कुछ बड़े खिलाड़ी
वही डेटा है जिसे ले रहे हैं
केवल एंथ्रोपिक ही वास्तविक इंजीनियरिंग क्षमताएं खरीद रही है। यह प्रतियोगिता, कई प्रमुख खिलाड़ी भाग ले रहे हैं, केवल अलग-अलग रणनीति के साथ।
कर्सर उत्पाद डेटा के इस मार्ग का अनुसरण कर रहा है।
इसका औपचारिक रूप से उल्लेख किया गया है: जब उपयोगकर्ता गोपनीयता मोड सक्षम करता है, तो कोड कभी भी इसके द्वारा या किसी तीसरे पक्ष द्वारा मॉडल प्रशिक्षण के लिए उपयोग नहीं किया जाएगा; केवल गोपनीयता मोड बंद करने पर, यह कोड लाइब्रेरी डेटा, प्रॉम्प्ट्स, संपादन गतिविधियों और कोड स्निपेट्स का उपयोग AI क्षमताओं और मॉडल प्रशिक्षण में सुधार के लिए कर सकता है।
Cursor का Tab मॉडल दिनभर में 10 अरब से अधिक संपादित वर्ण उत्पन्न करता है, और अनुरोधों की संख्या मूल संस्करण की तुलना में लगभग 100 गुना बढ़ गई है। आगे के Composer द्वारा, जिसे प्रवर्धित शिक्षा (RL) के माध्यम से प्रशिक्षित किया गया है, मॉडल बड़ी संख्या में कोड के कार्यों के परिवेश में संपादन, खोज आदि उपकरणों को बुलाना सीखता है और लंबे समय तक चलने वाले इंजीनियरिंग कार्यों को संभालता है।
Composer 2.5 अब सैकड़ों कदमों वाले लंबे समय तक चलने वाले कार्यों को सीधे लक्ष्य बनाता है।
मस्क ने पूंजी बंधन/अधिग्रहण विकल्प का उपयोग किया है।
इस साल फरवरी में, xAI को SpaceX में शामिल कर लिया गया। अप्रैल के अंत तक, SpaceX ने वर्ष के भीतर Cursor की मातृ कंपनी Anysphere को 600 अरब डॉलर में खरीदने का अधिकार प्राप्त किया, या पहले 100 अरब डॉलर का भुगतान करके गहन सहयोग किया। मस्क को Cursor के पास मौजूद दुनिया के सबसे सक्रिय वास्तविक डेवलपर व्यवहार डेटा पर ध्यान आकर्षित हुआ।
25 मई को, मस्क ने X पर घोषणा की कि नवीनतम बेस मॉडल Grok V9-Medium का प्रशिक्षण पूरा हो गया है, जिसमें 1.5T पैरामीटर हैं, जो वर्तमान उत्पादन मॉडल के तीन गुना हैं। उन्होंने विशेष रूप से उल्लेख किया कि यह परिणाम Cursor डेटा के साथ पुनः प्रशिक्षण किए बिना का है; पुनः प्रशिक्षण के बाद 'प्रोग्रामिंग क्षमता काफी बेहतर हो जाएगी'। मॉडल का अनुमानित प्रकाशन जून के मध्य है।

इस तरह, V9 पहला ऐसा Grok होगा जो वास्तविक डेवलपर व्यवहार के डेटा को सिस्टमैटिक रूप से «खाएगा»।
OpenAI के बाद के Codex ने भी यही राह अपनाई। 2025 में जारी किए गए Codex को codex-1 द्वारा संचालित किया जाता है, जिसे OpenAI द्वारा वास्तविक कोडिंग कार्यों पर रीइनफोर्समेंट लर्निंग के माध्यम से प्रशिक्षित किया गया है, जिसका उद्देश्य मानवीय शैली के अनुरूप, PR की प्रथाओं के अनुकूल कोड लिखना है, और परीक्षण सफल होने तक बार-बार चलाना है; प्रत्येक कार्य आपके कोडबेस के साथ पहले से स्थापित एक अलग सैंडबॉक्स में चलाया जाता है।
अब Codex, OpenAI के एजेंटिक कोडिंग प्लेटफॉर्म के रूप में अपग्रेड किया गया है, जो इसके अग्रणी कोडिंग मॉडल द्वारा संचालित है; सप्ताहिक उपयोगकर्ताओं की संख्या 500 लाख से अधिक है।
वे वास्तव में एक ही चीज के लिए प्रतिस्पर्धा कर रहे हैं: प्रक्रिया डेटा, केवल रास्ते अलग-अलग हैं।
Anthropic ने पहले मॉडल बनाया, लेकिन वास्तविक विकास परिदृश्य की प्रतिक्रिया की कमी थी, इसलिए उन्होंने लगभग 1000 इंजीनियरों को भाड़े पर रखा और सॉफ्टवेयर इंजीनियरिंग प्रक्रिया को सीखने योग्य डेटा में विभाजित कर दिया;
कर्सर के पास पहले से ही उत्पाद और वास्तविक उपयोगकर्ता व्यवहार हैं, साथ ही उनके स्वयं विकसित Tab, Composer आदि प्रोग्रामिंग मॉडल भी हैं। लेकिन OpenAI, Anthropic की तुलना में, इसके पास सामान्य बेस मॉडल और बड़े पैमाने पर प्रशिक्षण के लिए कम्प्यूटिंग पावर की कमी है;
मस्क को डेटा की कमी है, इसलिए वह लगातार डेवलपर व्यवहार डेटा पैदा करने वाले एक उत्पाद एंट्री पॉइंट को कुछ सौ अरब डॉलर में खरीदने की कोशिश कर रहे हैं;
OpenAI मॉडल और उत्पाद दोनों में कमी नहीं है, इसलिए उन्होंने खुद एक सैंडबॉक्स बनाया, जहां मॉडल वास्तविक कोडिंग कार्यों में रीइनफोर्समेंट लर्निंग के माध्यम से बार-बार प्रयास, परीक्षण, सुधार और आवर्धन करता है।
कुछ अलग-अलग दृष्टिकोण अपनाते हैं, लेकिन सभी अपने AI प्रोग्रामिंग मॉडल को तैयार करने के लिए अधिक वास्तविक इंजीनियरिंग स्थलों के डेटा का उपयोग कर रहे हैं।


असली खाई
मनुष्य की स्वाद और निर्णय
एक स्वी-चैट नामक पेपर ने पहली बार वास्तविक एजेंट कोडिंग संवादों का बड़े पैमाने पर संग्रह किया: 6,000 सेशन, 63,000 से अधिक उपयोगकर्ता प्रॉम्प्ट्स और 355,000 टूल कॉल।
इससे एक दर्दनाक आंकड़ा निकलता है: एजेंट द्वारा उत्पादित कोड केवल 44% ही अंतिम रूप से उपयोगकर्ता के सबमिशन में शामिल होता है। आधे से अधिक का भाग हटा दिया जाता है, बदल दिया जाता है, या खारिज कर दिया जाता है।

SWE-चैट का वास्तविक परीक्षण: vibe coding ने 41% संवादों को कब्जा कर लिया है, लेकिन एजेंट द्वारा लिखा गया कोड केवल 44% ही अंतिम रूप से सबमिशन में शामिल हुआ; उपयोगकर्ता 44% इंटरैक्शन राउंड्स में सुधार, त्रुटि या ब्रेक के माध्यम से मॉडल के आउटपुट को पुनर्निर्धारित करते हैं।
यह बताता है कि HumanEval जैसे पुराने बेंचमार्क पहले ही संतृप्त हो चुके हैं, और केवल स्कोर देखने का कोई बड़ा मतलब नहीं है। वास्तविक मैदान, वास्तविक विकास प्रक्रिया में आने वाले बार-बार, प्रयोग, और फिर से शुरू करने के डेटा हैं।
जितना मजबूत मॉडल होता है, उतना ही खर्च करना पड़ता है मानव द्वारा अभी तक बदले न जाने वाले हिस्से—इंजीनियरिंग की अंतर्दृष्टि—को खरीदने के लिए।
Anthropic प्रति कार्य 280 डॉलर खर्च करता है, और A/B वोटिंग के लिए लगभग 1000 इंजीनियर रखता है: यह भारी लगने वाली प्रक्रिया ही उसकी खरीद का कारण है।
जो व्यक्ति इंजीनियरिंग साइट को ऐसे डेटा में बदल सकता है जिसे मॉडल उपभोग कर सके, वही AI प्रोग्रामिंग के अगले चरण में प्रवेश का टिकट प्राप्त करता है।
