بعد أن تأكل الذكاء الاصطناعي كل شيء، ما الذي يبقى غير قابل للتدريب؟

مقدمة: مع استمرار تطور قدرات الذكاء الاصطناعي، يظهر في عالم الاستثمار حكم متشائم جديد: إذا أصبحت النماذج أقوى تدريجيًا، فستُبلع جميع شركات التطبيقات من قبل شركات مثل Anthropic و OpenAI و Nvidia التي تمتلك النماذج وطبقة الحوسبة، ليتبقى في السوق فقط النماذج المتقدمة والحوسبة والبنية التحتية القليلة. لكن سارة غو ترى أن هذا الحكم صحيح فقط جزئيًا. فبالفعل، ستُمتص تلك "الواجهات الرقيقة" (التطبيقات البسيطة التي تغلف النماذج)، وكل المهام التي يمكن قياسها عبر اختبارات معيارية، وتدريبها ببيانات عامة، وتحققها بتكلفة منخفضة، ستُصبح تجارية تدريجيًا.

السؤال الحقيقي هو: بعد أن تبتلع الذكاء الاصطناعي كل ما يمكن تدريبه، ما الذي لا يزال غير قابل للتدريب؟

إجابة هذا السؤال هي القيم التي توجد داخل المنظمات الحقيقية ولا يمكن نسخها بسهولة من الخارج: بيانات الشركة الخاصة، سير العمل المعقدة، ثقة المستخدمين، صلاحيات النظام، الحكم الصناعي، المسؤوليات التنظيمية، والخبرة المكتسبة عبر الزمن. يمكن للنماذج أن تكون أكثر ذكاءً، لكنها لا يمكنها الدخول تلقائيًا إلى أنظمة الإنتاج المصرفية؛ يمكنها توليد إجابات طبية، لكنها لا يمكنها الحصول مباشرة على ثقة الأطباء وعمليات اتخاذ القرار في المستشفيات؛ يمكنها كتابة نصوص قانونية، لكنها لا يمكنها تحمل مسؤولية المحامين المتمرسين، ولا يمكنها تعريف ما هو عمل قانوني مؤهل من العدم.

لذلك، فإن الشركات الحقيقية التي ستتمتع بحاجز تنافسي مستقبلي في مجال الذكاء الاصطناعي ليست تلك التي تكون فقط أكثر ذكاءً من النماذج العامة، بل تلك التي تتعمق داخل صناعة معينة وتُنجز عملًا صعبًا ولكن حاسمًا: "الترجمة" — أي تنظيم الواقع الخاص بالعملاء وأدواتهم وعملياتهم ومعايير تقييمهم في أنظمة يمكن للنموذج تنفيذها، وفي أثناء الخدمة الطويلة الأمد، تكتب تدريجيًا تعريفًا لـ"ما الذي يُعد نتيجة جيدة". كلما أصبح الذكاء الاصطناعي أقوى، زاد تقليل قيمة المهام القابلة للقياس والنسخ؛ كما زاد تسليط الضوء على تلك "الأمور غير القابلة للتدريب" التي تحمل تاريخًا وعلاقات وصلاحيات وتقديرًا متخصصًا. هذا هو بالضبط القيمة الحقيقية التي قد تبقى بعد ابتلاع النماذج.

Below is the original text:

في منتصف عام 2026، إصدار المستثمر من "الجنون الاصطناعي" هو شعور يائس بأن لا شيء يبقى يستحق الاستثمار: يبدو أننا يجب أن نستثمر كل أموالنا في Anthropic وNvidia، ثم نعود للمنزل وننام. لكنني لم أشعر بهذا أبدًا. منذ عدة إصدارات صغيرة سابقة، كنت متأكدًا أن النماذج أصبحت أكثر ذكاءً مني؛ وأنا سأكون سعيدًا جدًا بشراء Anthropic وNvidia وفقًا للأسعار السوقية؛ وأصدقائي الأذكى حولي أيضًا واثقون تمامًا أن التحسين الذاتي للنماذج سيصبح فعليًا قريبًا — لكنني ما زلت لا أشعر بهذا الشعور اليائس.

هذا اليأس ليس أعمى. منطقه هو كالتالي: إذا استمر النموذج في التحسن باستمرار في كل شيء، فإن جميع الشركات المبنية على هذا النموذج ليست سوى طبقة رقيقة من الغلاف تنتظر الامتصاص من قبل النموذج؛ والقيمة الوحيدة التي ستبقى في النهاية هي قوة الحوسبة وأوزان النماذج المتقدمة.

على سبيل المثال، هذه هي الحالة التي تعتمد عليها أكثر مشاعر اليأس. عندما تم إصدار Devin في عام 2024، كان قادرًا على حل فقط 13٪ من المهام في اختبارات البرمجيات القياسية، وبالتالي تم تجاهله إلى حد كبير من قبل السوق. بعد عام ونصف، تمكن أفضل الوكلاء من تحقيق درجات تزيد عن 80٪، وبدأوا في معالجة مهام حقيقية داخل جولدمان ساكس والجيش الأمريكي. أدى شبه الجميع إلى الاستنتاج الخاطئ نفسه: أن النموذج ابتلع هندسة البرمجيات.

لكن عندما استهلك النموذج الجزء الأسهل قياسًا في هندسة البرمجيات، نعيد اكتشاف نقطة عرفتها العديد من الفرق منذ فترة طويلة: فالهندسة كانت دائمًا تقاوم القياس، والجزء الأسهل قياسًا ليس بالضرورة الجزء الوحيد المهم.

أخيرًا، قام ميرت ديميرير من معهد ماساتشوستس للتكنولوجيا وشركاؤه بقياس هذا الأمر: بين أكثر من 100 ألف مطور، زادت كمية الكود المكتوب بواسطة وكلاء البرمجة من الجيل الجديد بنسبة حوالي 180٪، لكن كمية الكود التي تم تسليمها فعليًا للإنتاج زادت فقط بنسبة حوالي 30٪. أصبح كتابة الكود أرخص، لكن الأجزاء المتبقية لا تزال تتطلب تدخل الإنسان، وهذه الأجزاء مهمة جدًا. بالطبع، لا يزال التأثير الصافي الكلي مذهلًا.

الاختبار المرجعي هو شيء يمكنك قياسه؛ وأي شيء يمكن قياسه، يمكن تدريبه عليه. لذلك، فإن وكلاء البرمجة هم أول من ينضج: المُجمّع هو مُحقق مجاني، ومجموعة الاختبارات هي أيضًا مُحقق مجاني. عندما يمكن التحقق من الإجابة ذاتيًا تقريبًا بتكلفة صفرية، يمكنك التدريب المستمر حول إشارة التحقق هذه حتى تُثقبها.

لكن الخضوع للاختبار لا يعني أبداً أن هذا التغيير صحيح بالنسبة لقاعدة كود تعمل منذ عشر سنوات. ربما هناك ثلاثة أسباب لم تُسجل في أي وثائق وراء وجود هذا الوحدة؛ وقد يكون خط أنابيب النشر يعتمد على مهمة cron لم يرغب أحد في الاعتراف بأنه كتبها.

لا يمكن قراءة هذا النوع من الدقة من قائمة الترتيب، ولا حتى من أي شيء آخر بشكل مباشر. يمكنك فقط معرفة ما إذا كان النظام المعقد للغاية فعالًا حقًا من خلال تشغيله في العالم الحقيقي لفترة كافية. والنمذجة الأذكى لا تجعل العالم الحقيقي يعمل أسرع. لا أحد يثق بنظام بحجم Google فقط لأنه اجتاز اختبارات الوحدة وظهرت علامة صح خضراء. أنت تثق به لأنه تحمّل أحمالًا حقيقية لسنوات عديدة.

هذا النوع من الدقة ليس خاصًا فحسب، بل هو سدّ واقٍ يتشكل ببطء، وهو سدّ لا يمكن لرأس المال تقليل زمنه مباشرة. حتى المتفائلون يعترفون بأن هذا التوقيت لا يمكن تخطيه. كتب نوم براون، رائد نماذج الاستدلال في OpenAI، مؤخرًا: الطريقة الوحيدة الموثوقة لتقييم أداء وكيل على مدار دورة سنة واحدة هي تركه يعمل فعليًا لمدة سنة.

كما قال غابي بيرييرا، فإن الأتمتة الحقيقية لا تتعلق فقط بجعل النماذج أقوى. بل إنها تتعلق بتغيير المنتج والنموذج وسير العمل وتنظيم الشركة معًا، وفي هذه العناصر الأربعة، يسير ثلاثة منها وفقًا لسرعة التنظيم.

إحالة الأشخاص على الحركة هي جزء لا يمكن لأي اختبار معياري أن يلامسه: إقناع شريك متشكك بتغيير طريقته في إدارة الأمور، وحفاظ فريق على ترابطه أثناء عملية إعادة البناء. وهذا هو السبب في أننا نعطي الأولوية في توظيف المدير التنفيذي لقدراته على التعامل مع الأشخاص، على الأقل بنفس درجة أهمية قدراته التحليلية. لن يتغير هذا الوزن مع تطور ذكاء النماذج.

التعليقات هنا غامضة، وفترة الوقت مقدرة بالسنوات، بينما الثقة تتعلق بشخص محدد. كل شركة أعرفها جعلت كل مهندس يستخدم نماذج برمجة متقدمة، لكن لم تُحدث أي منظمات هندسية في هذه الشركات تغييرًا يقترب من سرعة تقدم النماذج. استغرق اعتماد الأدوات ربع سنة فقط، وكان ذلك ربع سنة سحريًا لنمو الرموز! لكن إعادة البناء الحقيقية تتطلب سنوات.

الأعمال التي يمكن رؤيتها، تغادر. الأعمال ذات القيمة الحقيقية، هي من حيث البنية غير قابلة للقراءة: أي شيء يمكنك وضعه على قائمة الترتيب، يمكن استخدامه للتدريب؛ وبالتالي، أي شيء قابل للقياس، يتجه نحو التوحيديّة. هذه العملية تتطلب وقتًا، ولن تكتمل أبدًا، لكن الاتجاه لن يعود أبدًا.

باستخدام كلمات صديقي، مات ماكينيس من Rippling، فإن الترجمة المالية لذلك هي: الرمز المميز الذي يُستخدم فقط للإجابة على سؤال عام لا يكاد يملك أي قيمة، لأن أي نموذج يمكنه الإجابة عليه؛ لكن الرمز المميز الذي يقوم بالاستدلال على بيانات شركتك يكون ذا قيمة أكبر بكثير، لأنه يقوم بما تريده حقًا، وليس فقط بإنتاج إجابة تبدو معقولة.

ستُبلع المهام القابلة للقراءة من الاتجاهين.

من الأسفل، ستصل المهام إلى حالة التشبع: بمجرد أن يمكن التحقق من مهمة بتكلفة منخفضة، يتوقف المشترون عن الاهتمام بأي نموذج أكملها، وبدلاً من ذلك يبدأون في السؤال عن سعرها. وبالتالي، تنتقل المهمة إلى أرخص نموذج مفتوح المصدر أو نموذج مُبَسَّط في ذلك الأسبوع. طالما أن هامش الربح قادر على العمل، فسيعمل بالتأكيد في النهاية.

من الأعلى، يحاول المختبر جعل النموذج يبتلع هيكله الخارجي. التوجيه بين الاستعلامات الاسترجاعية، والاستدعاءات الرخيصة وال costly، واستخدام الأدوات، وحتى استراتيجيات الاستدلال — جميع الأجهزة التي كانت تحيط بالنموذج من الخارج، تُسحب تدريجيًا داخل أوزان النموذج، حتى يصبح "الغلاف" نفسه جزءًا من النموذج. هذه هي الحدود الماصة.

ستعمل ضغوط الربح أيضًا من الاتجاه الآخر: يجب أن يكون الوكيل العام مستعدًا دائمًا للتعامل مع أي شيء، وبالتالي تكون تكلفته مرتفعة؛ بينما يمكن للتطبيق المركّز تحسين سير عمل واحد إلى أقصى حد، مما يجعله يستهلك جزءًا صغيرًا فقط من الرموز. وبالإضافة إلى ذلك، على عكس المختبرات التي تبيع هذه الرموز، يمكن للشركات التطبيقية الاحتفاظ بالفرق الأوسط.

لذلك، يمكننا طرح سؤالين على أي نوع من العمل: هل صحته خاصة ومكلفة، وهل هي حقيقة موجودة فقط داخل بيانات شركة معينة؟ وهل هي معزولة في نظام لا يمكن للغرباء الوصول إليه؟ وعند دمج هذين السؤالين مع درجة تشبع المهمة، نحصل على مصفوفة 2×2.

الوظائف التي أصبحت مشبعة وحلولها معروفة هي مجال عمل الرموز المميزة المُسلَّعة، وستسيطر عليها النماذج مفتوحة المصدر. أما الوظائف المتقدمة ولكن حلولها معروفة، مثل اختبارات الترميز، فهي المكان الذي سيفوز فيه المختبرات، لأن عندما يكون التقييم مجانيًا، فإن امتلاك النموذج نفسه لا يُعدّ ذا قيمة.

الجائزة الحقيقية هي الزاوية الأخيرة، وهي زاوية "غير القابلة للتدريب": الأعمال الرائدة، لكن صحتها توجد فقط في بيئات خاصة. يمكنك رؤية ذلك على سحاب الاستدلال المخصص للرُّواد الأصليين للذكاء الاصطناعي: يتم إنشاء غالبية الرموز بواسطة نماذج مخصصة، وليس بواسطة النماذج المفتوحة المصدر العامة.

الجدران المؤدية إلى هذا الزاوية الأخيرة متباينة الارتفاع. مكتبة كود مطور كونها قابلة للنقل ومقننة، فإن الدخول إليها ليس صعبًا. لكن نظام الإنتاج الخاص ببنك غير قابل للنقل وغير معياري. لن تحصل على صلاحيات root له فقط لأنك أصبحت أكثر ذكاءً بنسبة 2٪ على SWE-Bench Verified.

القدرة ستبتلع الكثير من الأشياء، لكن النماذج الأفضل لن تحوّل المعايير الحقيقية الخاصة إلى معايير عامة. فهي لا تمتلك تراخيص، ولا توقع على المسؤوليات، ولا تملك وثائق الشركة؛ ولا يمكنها أن تُرفع ضدها دعاوى عندما تكون الإجابات خاطئة. إن العقبة هنا ليست الذكاء، بل الصلاحيات والمسؤولية. يمكنك أن تتخيل نموذجًا أذكى بكثير من أي إنسان، لكنه لا يزال بحاجة إلى السماح له بالدخول، ولا يزال هناك شخص ما يجب أن يوقع باسمه على ما يفعله.

الباب لديه قفل وقضيب إغلاق.

القفل هو البيئة: فقط بعد اكتساب الثقة داخل النظام، واجتياز المراجعة الأمنية، وإكمال التكامل، وتوقيع عقد يحمل مسؤولية النتائج، يمكنك التحقق مما إذا كان الذكاء الاصطناعي قد قام فعلاً بأشياء مفيدة.

المفتاح هو المستخدم. اليوم، يفتح معظم الأطباء الأمريكيين OpenEvidence يوميًا، وهذا شيء لا يمكن شراؤه بأي قوة حوسبة. يمكن لمختبر أن يدرب نموذجًا طبيًا مثاليًا غدًا، لكنه لا يزال غير قادر على دخول عادات استخدام الأطباء أو تدفق قرارات UCSF. لأن الثقة تُبنى ببطء، من خلال العلاقات وقبول المستخدمين، وليس من خلال خفض التدرج لمسح هذه الأشياء.

هذا بالضبط ما تعمل عليه شركات التطبيقات. إن قدرة تطبيق على احتلال مكان في الزوايا "غير القابلة للتدريب" تعتمد على الأعمال غير المبهرة: تنظيم الواقع الخاص للشركة، بحيث يمكن للنموذج أن يتصرف بناءً عليه؛ تزويد النموذج بالأدوات التنفيذية؛ وتغيير طريقة عمل القوى العاملة فعليًا بالتعاون مع العملاء.

من الصعب نسخ شركة يمكنها إنجاز هذا النوع من "الترجمة"، ولن تنتهي هذه الترجمة أبدًا. التكامل والصيانة سيستمران طوال مدة العلاقة مع العميل. الفائزون في هذا الأمر هم الفرق التي تضع مهندسي التخصص في المجال والأدوات مباشرةً بجانب العميل.

على سبيل المثال، في مكتب محاماة رائد وقديم، فإن قسم الاندماج والاستحواذ وحده يتعامل مع ما يقارب ألف صفقة سنويًا. لا يمكنك السماح لمئات المساعدين القانونيين بتنزيل ملفات العملاء على سطح المكتب كل منهم على حدة، ثم إرسالها إلى عامل عام لقراءتها. أسباب السرية تمنع هذا بالفعل، ناهيك عن وجود أكثر من عشرة مشكلات أخرى. حتى لو أمكن القيام بذلك، فستتعلم فقط أجزاءً مجزأة: مساعد واحد يصحح جزءًا صغيرًا في كل مرة، ولا يستطيع أحد رؤية كيفية سير صفقة كاملة.

الإشارات الحقيقية المهمة توجد على مستوى المعاملة. لكل معاملة شكلها الخاص: بالنسبة للدمج والاستحواذ، فهي اتفاقية عدم الإفشاء، قائمة الشروط، التحقيق الميداني، اتفاقية الشراء، المستندات المرافقة، قائمة التسليم؛ بالنسبة للنزاعات المتعلقة بالملكية الفكرية، فهي طلبات، اكتشاف الأدلة، التقنية الحالية، المزيد من الطلبات. لكل مجال تجاري هيكله الخاص، ولا يمكن تبديل المحامين أو الأدوات بشكل عشوائي.

لكن المشكلة الحقيقية التي تسعى هذه المكتب القانوني لحلها تقع على مستوى أعلى: كيف يمكن إدارة جميع مجالات العمل في آنٍ واحد، تمامًا كما يدير الشريك الرئيسي المتميز مئات المهام بالتوازي، مع جذب قضايا جديدة وتدريب المحامين المساعدين. تغيير شركة مثل هذه ليس مشكلة واحدة يمكن تحديدها كمهمة تقييم. فهي تتطلب مديرًا يتعامل معها كما يُدار لعبة "بيسبول البيانات": الأهداف الوسيطة غامضة جدًا، والردود غير كاملة، والدورات طويلة جدًا، والبيئة نفسها لا تتوقف أبدًا.

للأسف، من الصعب أيضًا بيع القيم غير القابلة للقراءة، وذلك للأسباب نفسها التي تجعلها صعبة التوسيع: لا يمكن للشركة أن تحدد من الخارج ما إذا كان الذكاء الاصطناعي قادرًا حقًا على تغيير عملياتها كما تُظهر الاختبارات المرجعية. لذلك، ستتوقف الشركات الأقوى عن محاولة إثبات نفسها خارجيًا، وستدخل بدلاً من ذلك داخل عملائها، ثم تُسعّر النتائج.

تفرض Sierra الرسوم فقط عندما يحل عاملها مشكلة العميل؛ إذا تم تحويل المشكلة إلى شخص بشري، فلا تفرض أي رسوم. وبالتالي، يصبح السعر نفسه آلية تقييم. وهذا ممكن لأن Sierra تمتلك حق تعريف "المشكلة المحلولة". وقد فعل نفس الشيء Devin من Cognition في مجال البرمجيات، حيث أطلق "ضمان الأداء". فقط عندما تُمنح ثقة للدخول إلى داخل نظام ما، يمكنك أن تكون مؤهلاً لتقديم هذا الضمان على النتائج.

حتى على مستوى تقديم خدمة التوكن—الذي يُطلق عليه الجميع عادةً كونه سلعة بحتة—فإن أدائها لا يتصرف كسلعة. ستُركّز أفضل الشركات الناشئة المبنية على الذكاء الاصطناعي خدماتها على مزودين اثنين فقط، مثل Baseten أو Fireworks. فبينما ستتجه تكلفة كل توكن بمرور الوقت نحو التسويق كسلعة، فإن الموثوقية تحت حركة مرور حقيقية، والوصول المستقر إلى قدرات الحوسبة النادرة، لن تصبح سلعًا. اختيار مكان تقديم خدمة الاستنتاج مختلف تمامًا عن اختيار النماذج المستخدمة. الجزء الوحيد الحقيقي الذي يشبه السلعة في الاستنتاج هو السعر.

رد شائع هو: المختبر هو موردك، فلماذا لا يستخدم منتجه الخاص من الطرف الأول بأسعار أقل من التكلفة ليخنقك؟ أو لماذا لا يُلغي ببساطة وصولك إلى واجهة برمجة التطبيقات ويستحوذ على السوق بنفسه؟ هذا هو النسخة الحقيقية من الشعور باليأس. لكنه يبقى صحيحًا فقط إذا كان النموذج لعبة فردية.

من الواضح أن الأمر ليس كذلك. إن طبقة النموذج تشبه مسابقة موت بين ثلاثة لاعبين ونصف، مع مجموعة من اللاعبين الدوليين الذين تأخرت خطط تدريبهم حوالي ستة أشهر، وتحالف تطوير بحجم خمسة أضعاف حجمه العام الماضي. يرغب العملاء في وجود منافسة بين مورديهم، بينما تسعى المختبرات إلى حصة السوق أكثر من رغبتها في القضاء على أي تطبيق محدد.

يمكنك رؤية هذا في الأسواق التنافسية المباشرة في المختبر. في سيناريوهات الدردشة الاستهلاكية، لم تفز أبدًا أفضل النماذج بحصة السوق بالكامل. ظل ChatGPT في الصدارة خلال سنوات من المنافسة الحقيقية؛ الحصة التي تخسرها الآن تذهب إلى Gemini، وذلك بسبب قدرة Android والبحث على التوزيع، وليس لأن النموذج أفضل. يُعتبر Anthropic حاليًا يمتلك أفضل نموذج في الأسواق التنبؤية وجوهر الإنترنت، لكنه لا يُعد لاعبًا رئيسيًا في الدردشة الاستهلاكية، بل بنى أعماله في سيناريوهات الأعمال والبرمجة.

إذا لم يستطع نموذج أفضل حتى أن يسرق عملاء المنافسين من خلال التطبيق الأساسي، فلن ينجح بسهولة في دمج نظام سجلات المستشفى أو نظام مسؤولية البنك. اليوم، ما يختاره الجمهور في المنتجات لا يعتمد فقط على القدرة البرمجية. إذا ظل طبقة النماذج المتقدمة مزدحمة، فستكون طبقة التطبيقات فوقها ذات قيمة.

إذا لم يكن من الممكن تقييم عمل من الخارج، فعليه أن يكون هناك شخص داخلي يقرر ما الذي يُعد إجابة جيدة. وهذا القرار هو اللعبة بأكملها. عندما يُكتب عدد كافٍ من هذه القرارات، تصبح اختبارات معيارية. نشر هارفي اختبارات معيارية في مجال القانون، ونشر سييرا اختبارات معيارية لوكيل الصوت. سبب حصولك على الحق في تعريف ما يعنيه "جيد" في مجال معين هو أن هذا المجال يستخدمك بالفعل. وهذه الشركات اكتسبت هذا الحق من خلال صراعات صعبة خلال عملية التبني الحقيقي.

التقييمات التي تحدد حقًا اتجاهات التدفق المالي هي خاصة وتشكل لكل شركة على حدة: ما الذي ستقبله هذه الشركة كعمل جيد في هذه المسائل. ولا يزال هذا الأمر بعيدًا عن الانتهاء، لأن عمق القانون يتجاوز بكثير أي اختبار عام. OpenEvidence تُرسّخ ما هي الإجابات السريرية الآمنة.

في الواقع، كل هذا ليس "قياسًا" بالمعنى الحقيقي، بل يتعلق باتخاذ قرارات حول ما هو حقيقي وما هو جيد. تُكتب هذه القرارات حتى تصبح معايير يُقبل بها الجميع كمقياس. بغض النظر عن مدى ذكاء مختبرات النموذج الأساسي، لا يمكنها كتابة هذه المعايير من العدم، لأن هذا المكانة لا توجد إلا داخل المجال نفسه.

غالبًا ما تقع هذه السلطة في المكان الذي كانت موجودة فيه أصلاً. يكتب المحامون ذوو الخبرة المعايير القانونية. الأطباء هم من يحددون الإجابات السريرية الآمنة. الشركة التي تمتلك بالفعل علاقة مع العميل هي من تحدد معنى "تم الحل".

ستستمر الحدود الممتصة في الارتفاع، لأننا سنستمر في تعلم قياس مزيد من الأعمال، وسيتم امتصاص ما يمكن قياسه. ستتقلص الأرض غير القابلة للتدريب تحت أقدام من يقفون عليها، لذا لا يمكنك التوقف بمجرد العثور على موقع قابل للدفاع. يجب أن تستمر في التوجه نحو الأماكن التي لا يمكن تقييمها بعد، وتستمر في إعادة تغطية المخاطر وإعادة تقييمها.

في مهمة ضيقة، يمكنك التدريب حتى مستوى متقدم باستخدام بياناتك الخاصة ونظام تقييمك الخاص، وتتفوق على النماذج العامة في السيناريوهات الحاسمة؛ سيصبح هذا النموذج المتخصص جزءًا من حصنك التنافسي. من ناحية أخرى، إذا كنت تتنافس على قدرات النماذج العامة، فستكون معركة رأس مال، وستخسر أمام من يمتلك أكبر قدر من القدرة الحسابية. وهذا أيضًا هو الفخ الذي تسقط فيه بسهولة الشركات التي لديها وصول سطحي فقط ومهامها عالية القابلية للقراءة.

عندما تقرر شركة ما، من أجل البقاء، تدريب نموذج يتجاوز النماذج الرائدة على مجموعة واسعة من المهام، يبدو أن النتيجة غالبًا ما تُحسم وفقًا لحجم مراكز البيانات. غالبًا ما لا يكون النهاية ظهور فائز مستقل، بل بيع الشركة للاعب يمتلك قوة حوسبة كافية.

كل ما سبق هو دفاع. أما الصعوبة الأكبر فهي الهجوم: أولاً، قرار ما الذي يجب بناؤه. هذا هو ما كنت أبحث عنه طوال هذه السنة، وربما وجدته فقط ثلاث مرات. النموذج لا يساعدك في هذا الأمر. أينما توجهه، سيقوم بما تطلبه؛ لكنه لا يستطيع أن يخبرك بما يستحق التوجيه إليه. لا يمكنك إنشاء اختبار مرجعي لهذا، وبالتالي لا يمكنك تدريبه.

هذا هو السبب في أن الشركات الكبرى الحالية لن تستولي على كل شيء: فهي ستُحافظ على الأراضي التي تمتلكها بالفعل، بينما سيأتي الشيء التالي من شخص اكتشف استخدامًا له قبل الآخرين. ربما، النية هي مدخل أكثر ندرة من قوة الحوسبة.

نصف هذا الشعور باليأس صحيح. الطبقة الرقيقة بالفعل قيد الامتصاص، والعديد من الأشياء التي تبدو كشركات اليوم هي في الواقع طبقات رقيقة فقط. لكن حكمه بشأن "ما الذي يبقى بعد الامتصاص" خاطئ. الآلية واضحة، لكن النهاية ليست كذلك.

الاتجاه الذي أرغب في المراهنة عليه هو أن الذكاء سيستمر في أن يصبح أرخص، بينما ستستمر القيمة في الانزلاق نحو الأماكن التي لا تستطيعها نماذج قليلة فقط الوصول إليها. ما لا يمكن تدريبه، هو ما يحمل قيمة تاريخية.

لذلك، دخول أحد هذه المجالات لإجراء أعمال الترجمة غير المبهرة، ثم البدء في كتابة تعريف ما هو "جيد" هناك. لأن هناك دائمًا من سيقوم بذلك. إن أبرز درجات الاختبار المرجعية التي تم الاستشهاد بها هذا العام هي في الواقع خريطة أرضية ستُصبح بلا قيمة، ورسالة إعلامية: تُبلغ بعض الأشخاص أنهم على وشك فقدان حقهم في تعريف ما يعنيه "جيد".

[رابط الأصل]

BlockBeats