استخدمت Anthropic مشروع Marlin لتدريب Claude Code، حيث استأجر المشروع عبر شركة البيانات Snorkel AI حوالي 1000 مهندس برمجيات خارجي لإجراء اختبارات A/B على الكود الذي ينتجه النموذج، بمقابل 280 دولارًا لكل مهمة.
مؤلف المقال، المصدر: NewZeal
في الآونة الأخيرة، عرض تقرير "أسرار التقدم" الخاصة بـ Claude Code على السطح.
يقول Business Insider إن Anthropic لديها مشروع مخصص لتحسين Claude Code، ويتم تحسينه من خلال ملاحظات حوالي 1000 مهندس برمجيات.
تم تطوير هذا المشروع داخل شركة البيانات Snorkel AI تحت الاسم الرمزي "Marlin".

في يناير من هذا العام، كشف بوريس تشيرني، المسؤول عن Claude Code، أنه لم يكتب سطرًا واحدًا من الكود بخط اليد منذ أكثر من شهرين، حيث قام Claude بتقديم 22 طلب سحب (Pull Request) في يوم واحد، و27 في اليوم السابق، وكلها مكتوبة بواسطة النموذج.
كما أُفيد أن أغلب الكود الداخلي لـ Anthropic تم إنشاؤه بواسطة الذكاء الاصطناعي.
المكان المثير، هنا بالضبط.
من ناحية، قام مهندسون أساسيون من Anthropic بتكليف النموذج بمهام برمجة كبيرة؛ ومن ناحية أخرى، ينفقون على حوالي 1000 مهندس خارجي لتعليم Claude Code ما الذي يُعد "كودًا جيدًا" خطوة بخطوة.
ما الذي اشتريته بـ 280 دولارًا في الساعة؟
وفقًا لـ Business Insider، فإن المهندسين الخارجيين الذين استأجرهم مشروع Marlin لديهم خلفية في هندسة البرمجيات. عملهم يبدو وكأنه مراجعة كود حقيقية.
العملية تقريبًا كالتالي. أولاً، اختر مستودعًا على GitHub من قائمة تحتوي على آلاف المستودعات. ثم قم بإنشاء PR، وهي الخطوة التي يقدم فيها المطورون تعديلات على الكود. بعد ذلك، اكتب نص إرشاديًا واضحًا لشرح المهمة.
سيقوم النموذج بإنشاء مجموعتين من الأكواد، وما على المهندسين الخارجيين فعله بعد ذلك هو إجراء اختبار A/B: مقارنة المجموعتين واختيار الأفضل منهما.
يُدفع 280 دولارًا لكل مهمة، وتستغرق حوالي ساعة. بعض المهام تتطلب عدة جولات من المراجعة مع طبقة مراجعة Snorkel.
معايير التقييم هي تقييم صحة وأمان وموثوقية وقابلية صيانة الكود الإنتاجي.
قدم مثالين حقيقيين.
في مهمة ما، طلب مهندس خارجي من النموذج إعادة هيكلة طريقة معالجة البيانات التنفيذية (execution metadata) بهدف جعل الكود أكثر وضوحًا وأسهل في الصيانة، دون تغيير الوظيفة.
في مهمة أخرى، قام مهندس خارجي بإصلاح أمان لمنصة MLflow المفتوحة المصدر، تستهدف ثغرة حقن أوامر قد تحدث عند تحميل النماذج وتنزيل حزم Python. كانت المتطلبات واضحة جدًا: منع حقن الأوامر دون التأثير على خيارات pip (مدير حزم Python) القانونية.
متطلبات هذه المهام تتجاوز نطاق تسمية البيانات، وتبدو أكثر كأنها تطلب من مهندس متمرس نسخ نفس معايير التقييم "هذا الكتابة أفضل" مباشرة إلى النموذج.
من الواضح أن Anthropic لم تشتِر الكود، بل حكم المبرمجين ذوي الخبرة على كيفية كتابة الكود بطريقة أكثر أمانًا ونظافة.
لماذا يجب أن يكون المهندس؟
لماذا يبذل Anthropic جهدًا كبيرًا بهذا الشكل؟ لأن Claude Code لم يعد مجرد مربع دردشة لكتابة الكود.
يُعرّف Anthropic الرسمي أنه وكيل ذكاء اصطناعي على مستوى المشروع. يمكنه قراءة كامل قاعدة الكود، ووضع خطط عبر الملفات، وتنفيذ التعديلات مباشرة، وتشغيل الاختبارات، ثم التكرار الذاتي بناءً على نتائج الفشل.

تعريف موقع Anthropic لـ Claude Code: مجموعة من الوكلاء القادرين على قراءة مكتبات الكود، وإجراء تغييرات عبر الملفات، وتشغيل الاختبارات، وتسليم الكود المُقدَّم.
هذا يعني أنه سيقوم فعليًا بتعديل الملفات وتشغيل المهام والوصول إلى كامل مشروع الكود.
يُدرك Anthropic تمامًا أهمية هذا الأمر، لذا يُكرر في مدونة الهندسة مشكلات صلاحيات Claude Code، والبيئة المعزولة، والإرهاق الناتج عن طلبات الموافقة.
بشكل افتراضي، تتطلب تعديلات الملفات عالية الخطورة أو تنفيذ الأوامر موافقة المستخدم؛ لتجنب إرهاق الموافقة الناتج عن التصاريح المتكررة، أدخلت Anthropic أيضًا بيئة معزولة تسمح لـ Claude Code بالعمل بشكل أكثر أمانًا ضمن حدود نظام الملفات والشبكة المحددة مسبقًا.
عندما يكون لدى الذكاء الاصطناعي القدرة على تنفيذ الأوامر وتعديل الكود عبر الإنترنت، تصبح تكلفة الأخطاء مختلفة تمامًا. كما يتغير هدف التدريب: من "الكتابة الصحيحة" إلى "الكتابة الآمنة والموثوقة والقابلة للصيانة".
هذه الأشياء لا يمكن استخلاصها من بيانات كود عادية. كانت في الماضي مخفية داخل مراجعات الكود من قبل المهندسين ذوي الخبرة، وهي خبرة تُنقل من شخص لآخر. الآن، ترغب Anthropic في تحويلها إلى بيانات قابلة للشراء من خلال توظيف خبراء برمجة بشريين.
Snorkel، "تاجر الأسلحة البيانات" المُهمَل
الشخصية الحقيقية في كل هذا هي Snorkel.
خرجت هذه الشركة من مختبر ستانفورد للذكاء الاصطناعي عام 2019، وركّزت على اتجاه واحد فقط: البيانات هي ما يحدد نجاح أو فشل التعلم الآلي، وليس النموذج أو القوة الحسابية.
المؤسسان الرئيسيان لـ Snorkel هما أليكس راتنر ومشرفه في ستانفورد كريس ريه، وهما يذكران المصدر الأكاديمي الأساسي لـ Snorkel.

أليكس راتنر، المؤسس المشارك والرئيس التنفيذي لشركة Snorkel AI
في عام 2015، كان Snorkel مجرد "مشروع بعد الظهر" أثناء دراسة Ratner للدكتوراه: بدلاً من إنفاق مبالغ كبيرة على توظيف أشخاص لوضع التصنيفات يدويًا، كان من الأفضل استخدام البرامج والقواعد لـ"الإشراف الضعيف" (weak supervision)، مما يسمح للنموذج بالتعلم دون الحاجة إلى التصنيف اليدوي لكل عنصر.
باستخدام هذا النهج، جمع Snorkel أكثر من 60 ورقة بحثية، واستُخدم أداة مفتوحة المصدر من قبل Google وIntel، حتى تم فصلها رسميًا كشركة في عام 2019.

شريك مؤسس Snorkel AI وأستاذ ستانفورد كريس ريه
مُرشد راتنر، كريس ريه، هو أيضًا شخص قوي.
هو أستاذ في ستانفورد، وحاصل على جائزة ماك آرثر للعباقرة، ورائد أعمال متكرر، شارك في مشاريع تم شراؤها من قبل آبل، وأسس شركة سامبا نوفا التي بلغت قيمتها في مرحلة ما 5 مليارات دولار.
الأكثر إثارةً هو تحول这家公司.
كان هدف Snorkel حينها هو حل المشكلة المستمرة المتمثلة في أن التسمية اليدوية بطيئة ومكلفة وغير مستقرة، حيث كانت تستهلك حوالي 80% من وقت تطوير الذكاء الاصطناعي في تسمية البيانات يدويًا، وبالتالي كان الحلم الأولي لـ Snorkel هو تحرير البشر قدر الإمكان من مهام التسمية.
لكن مع دخول عصر النماذج المتقدمة، عاد النادر والأغلى إلى الإنسان، لكنه الآن يتجسد في ذوق وحكم الخبراء مثل الحاصلين على درجة الدكتوراه، والأطباء، والمحامين، ومهندسي التخصصات المتقدمة. الشركة التي انطلقت على أساس "استخدام أقل للبشر"، أصبحت الآن تحقق أكبر أرباحها من تجميع فريق باهظ الثمن من الخبراء لتدريب الذكاء الاصطناعي المتقدم، ومارلين ليست سوى واحدة من هذه الصفقات.
Workflow الخاص به يتوافق تمامًا مع احتياجات مشروع Marlin.
تُصفح موقع Snorkel هذه السيرورة على النحو التالي: أولاً، حدد المهمة ومعايير التقييم والمستخدمين المحققين، لتحديد "ما الذي يُعد جيدًا"، ثم شغّل خط أنابيب مراجعة الخبراء، حيث تخضع المهمة لمراجعة متعددة المستويات من قبل المؤلف، وعدد من المراجعين، وصانع القرار النهائي، مع تسجيل كامل للخطوات.

عرض موقع Snorkel: بعد حدوث خلاف في التقييم، يتم حله من خلال قرار رسمي، ويتم تسجيله في سجل تغييرات معايير التقييم، حيث يمكن تتبع كل تعديل إلى الشخص والوقت والأساس الذي تم بناءً عليه.
كما تقوم بإعداد بيئة التقييم والبيانات معًا، مما يسمح لنفس المهام بالتشغيل مرارًا وتكرارًا على إصدارات نماذج مختلفة للحصول على درجات قابلة للتكرار والمقارنة. ولضمان نقاء الدرجات وقابلية المقارنة، لا يجب أن يتأثر المقيّمون بالإصدار. هذا هو السبب في أن هؤلاء المهندسين الخارجيين لا يعرفون أي إصدار يقيمونه.
The quote also speaks volumes.
يقدم Snorkel وظيفة قانونية عامة في مجال العقود، بقيمة تتراوح بين 10 إلى 100 دولار لكل مهمة عالية الجودة؛ بينما تبلغ مهام هندسة البرمجيات في Marlin 280 دولارًا لكل مهمة، أي حوالي ساعة واحدة، مما يعادل أجرًا بالساعة يقارب ضعفين ونصف مقارنة بالقطاع (حيث تدفع Scale AI و Mercor للمهندسين حتى 110 دولارات في الساعة). ويمكن للخبراء الرائدين كسب أكثر من 3000 دولار أسبوعيًا.
تعليقات المهندسين الخارجيين الذين توظفهم Snorkel باهظة حقًا.
تضم قائمة العملاء Google وMistral وAnthropic. في مايو 2025، أكمل Snorkel جولة التمويل D بقيمة تقييم قدرها 1.3 مليار دولار.
قالت كيت جينسن، مسؤولة الإيرادات في Anthropic، إن إطلاق إمكانات Claude بالكامل يتطلب طرق تقييم جديدة تعتمد على خبراء المجال والتغذية الراجعة البشرية، وستستمر Anthropic في التعاون مع شركات مثل Snorkel.
كانت شركات Snorkel و Scale و Mercor تُعتبر في الماضي "منصات تسمية". والآن أصبحت سلسلة توريد خفية وراء شركات النماذج المتقدمة.
هذا هو فريق خبراء غير مرئي موزع عالميًا يُغذي أكثر الذكاءات الاصطناعية ذكاءً.

عدة كبريات
يتم الاستيلاء على نفس نوع البيانات
ليس فقط أنثروبيك التي تشتري قدرات هندسية حقيقية. هذه المسابقة، عدة لاعبين كبار يشاركون فيها، لكن بأساليب مختلفة.
يسلك Cursor طريق بيانات المنتج.
يُذكر رسميًا أنه بعد تمكين وضع الخصوصية، لن تُستخدم الكود أو من قبله أو من قبل أطراف ثالثة في التدريب؛ فقط عند تعطيل وضع الخصوصية، قد تُستخدم بيانات مكتبة الكود، والتعليمات، وسلوكيات التحرير، وأجزاء الكود لتحسين وظائف الذكاء الاصطناعي وتدريب النماذج.
يُنتج نموذج Tab الخاص بـ Cursor أكثر من مليار حرف تحرير يوميًا، مع زيادة طلباته حوالي 100 مرة مقارنة بالإصدار الأول. بالإضافة إلى ذلك، يُدرب نموذج Composer باستخدام التعلم المعزز (RL) ليتعلم النموذج في بيئات مهام برمجية واسعة كيفية استدعاء أدوات التحرير والبحث وغيرها، للتعامل مع مهام هندسية أطول مدى.
الآن في Composer 2.5، ركّز بشكل مباشر على المهام الطويلة التي تتطلب مئات الخطوات.
يستخدم ماسك أسلوب ربط رأس المال / خيارات الاستحواذ.
في فبراير من هذا العام، دُمجت xAI مع SpaceX. في أواخر أبريل، اكتسبت SpaceX حق شراء شركة Anysphere الأم لـ Cursor بقيمة 60 مليار دولار هذا العام، أو الدفع المبدئي بمبلغ 10 مليارات دولار للتعاون العميق. ما يجذب ماسك هو بيانات سلوك المطورين الحقيقيين الأكثر نشاطًا عالميًا التي تمتلكها Cursor.
في 25 مايو، أعلنت ماسك على X أن تدريب النموذج الأساسي الجديد Grok V9-Medium اكتمل، بـ 1.5 تريليون معلمة، أي ثلاثة أضعاف النموذج الإنتاجي الحالي. وقد أشار تحديدًا إلى أن هذه النتائج تم تحقيقها قبل إضافة بيانات Cursor للتدريب الإضافي، وبعد إضافتها "ستصبح قدراته البرمجية أقوى بكثير"، ومن المتوقع إطلاق النموذج في منتصف يونيو.

بهذه الطريقة، سيكون V9 أول نظام يُجري تحليلًا منهجيًا لبيانات سلوك المطورين الحقيقيين في Grok.
فيما بعد، سلك Codex من OpenAI نفس الطريق. تم إطلاق Codex في عام 2025، وهو مدعوم بـ codex-1، والذي تدربته OpenAI باستخدام التعلم المعزز على مهام برمجية حقيقية بهدف كتابة كود يشبه الأسلوب البشري ويتبع ممارسات مراجعة الكود (PR)، ويمكنه تشغيل الاختبارات مرارًا وتكرارًا حتى النجاح؛ يتم تشغيل كل مهمة في بيئة معزولة مُثبّت عليها مخزن كودك.
الآن تم ترقية Codex إلى منصة ترميز وكيلية تابعة لـ OpenAI، مدعومة بنماذج ترميزها الرائدة؛ وتجاوز عدد المستخدمين الأسبوعيين 5 ملايين.
ما يتنافسون عليه هو في الواقع نفس الشيء: بيانات العملية، فقط بطرق مختلفة.
أنثروبيك كانت لديها النموذج أولاً، لكنها نقصت في التغذية الراجعة من بيئة التطوير الحقيقية، فأنفقت أموالاً على طلب حوالي 1000 مهندس لتقسيم عملية هندسة البرمجيات إلى بيانات قابلة للتعلم؛
يتمتع Cursor بمنتجات حقيقية وسلوكيات مستخدمين حقيقية، بالإضافة إلى نماذج برمجية مطورة داخليًا مثل Tab وComposer. لكنه يفتقر مقارنة بـ OpenAI وAnthropic إلى بنية تحتية من النماذج الأساسية العامة وقدرات حوسبة تدريب واسعة النطاق؛
ما يفتقده ماسك هو أيضًا البيانات، لذا حاول ببساطة شراء منفذ لمنتج يولد باستمرار بيانات سلوك المطورين بمليارات الدولارات الأمريكية؛
بما أن نماذج ومنتجات OpenAI لا تفتقر إلى أي من الجانبين، قاموا ببناء بيئة اختبار خاصة بهم، حيث تمر النماذج عبر مهام برمجية حقيقية، وتتعلم من خلال التعلم المعزز عبر التجربة والخطأ، والاختبار، والتصحيح، والتكرار.
عدة شركات تتبع أساليب مختلفة، لكنها تصل إلى نفس النتيجة، حيث تستخدم بيانات تقترب أكثر فأكثر من الظروف الواقعية في مواقع المشاريع الهندسية لتدريب نماذج الذكاء الاصطناعي الخاصة بها في البرمجة.


الخندق الحامي الحقيقي
ذوق الإنسان وحكمه
توجد ورقة بعنوان SWE-chat، جمعت لأول مرة بشكل واسع النطاق محادثات ترميز ذكية حقيقية: 6000 محادثة، وأكثر من 63 ألف طلب من المستخدم، و355 ألف استدعاء أداة.
أنتج رقمًا مؤلمًا: فقط 44٪ من الشيفرة التي أنتجتها الوكلاء انتهت بالدخول إلى مساهمات المستخدمين. تم حذف أو تعديل أو رفض أكثر من نصفها.

تجربة SWE-chat الفعلية: لقد شكلت "البرمجة بالانطباع" 41% من المحادثات، لكن الكود الذي كتبه الوكيل دخل فقط في 44% من الطلبات النهائية؛ حيث قام المستخدمون في 44% من دورات التفاعل بتصحيح الأخطاء أو الإبلاغ عنها أو прерывتها لعكس نتائج النموذج.
هذا يشير إلى أن المعايير القديمة مثل HumanEval قد وصلت إلى حد التشبع، ولا معنى كبير للاعتماد فقط على الدرجات. الساحة الحقيقية هي البيانات الناتجة عن عمليات التطوير الفعلية التي تتضمن تكرارًا وتجريبًا وإعادة بناء مستمرة.
كلما زادت قوة النموذج، زادت الحاجة إلى إنفاق المال لشراء الجزء الذي لم يُستبدل بعد من قبل البشر: الحدس الهندسي.
تُدفع Anthropic 280 دولارًا لكل مهمة، وتجند حوالي 1000 مهندس للتصويت A/B: هذه العملية التي تبدو ثقيلة هي بالضبط ما يتم شراؤه.
من يستطيع تحويل موقع المشروع إلى بيانات يمكن للنموذج هضمها، يمتلك تذكرة الدخول إلى المرحلة التالية من البرمجة بالذكاء الاصطناعي.
