ديميس هاسابيس عن جدول زمني للذكاء العام الاصطناعي، والإنجازات العلمية، ومستقبل ديب ميند

تنظيم وتأليف: Shenchao TechFlow

المتحدث: ديميس هاسابيس (مؤسس DeepMind، حائز جائزة نوبل في الكيمياء لعام 2024، مدير Google DeepMind)

المُقدِّم: غاري تان

مصدر البودكاست: Y Combinator

ديميس هاسابيس: الوكلاء، الذكاء العام الاصطناعي والاختراق العلمي الكبير القادم

وقت البث: 29 أبريل 2026

تحرير المقدمة

زار الرئيس التنفيذي لـ Google DeepMind وحاصل جائزة نوبل في الكيمياء، ديميس هاسابيس، Y Combinator، حيث تحدث عن التقدمات الأساسية المطلوبة للوصول إلى الذكاء العام الاصطناعي، وقدم نصائح للمؤسسين حول كيفية الحفاظ على التفوق، بالإضافة إلى المكان الذي قد يحدث فيه الانفجار العلمي التالي. أدق تقييم مفيد للمؤسسين في مجال التكنولوجيا العميقة هو أنه إذا بدأت مشروعًا تكنولوجيًا عميقًا مدته عشر سنوات اليوم، فيجب أن تأخذ في الاعتبار ظهور الذكاء العام الاصطناعي في خطتك. كما كشف أيضًا عن صدور رسالة كبيرة قريبًا من Isomorphic Labs (شركة الذكاء الاصطناعي لتطوير الأدوية المنفصلة عن DeepMind).

أفضل الاقتباسات

مسار وجدول زمني لـ AGI

ستصبح هذه المكونات التقنية الحالية على الأرجح جزءًا من البنية النهائية للذكاء العام الاصطناعي.
لا تزال هناك مشكلات غير محلولة في التعلم المستمر، والاستدلال طويل المدى، وبعض جوانب الذاكرة، ويجب على الذكاء العام الاصطناعي حلها جميعًا.
إذا كانت خطتك الزمنية لـ AGI مشابهة للتي لدي، أي حوالي عام 2030، وابتدأت مشروعًا تقنيًا متقدمًا اليوم، فعليك أن تأخذ في الاعتبار أن AGI ستظهر في منتصف الطريق.

الذاكرة ونافذة السياق

يُعادل نافذة السياق تقريبًا الذاكرة العاملة. تبلغ الذاكرة العاملة البشرية في المتوسط سبعة أرقام فقط، بينما لدينا نوافذ سياقية بملايين أو حتى عشرات الملايين من الرموز. لكن المشكلة أننا نملأها بكل شيء، بما في ذلك المعلومات غير المهمة أو الخاطئة، وهذه الطريقة الحالية تُعتبر خشنة إلى حد كبير.
إذا كنت تتعامل مع بث فيديو مباشر وتخزن جميع الرموز، فمليون رمز يكفي فقط لما يقارب 20 دقيقة.

عيوب الاستدلال

أنا أحب لعب الشطرنج مع Gemini. أحيانًا يدرك أن هذه حركة سيئة، لكنه لا يستطيع العثور على حركة أفضل، فينتهي بالمراوغة والعودة إلى تلك الحركة السيئة. لكن نظام استدلال دقيق لا ينبغي أن يحدث له هذا.
من ناحية، يمكنه حل مسائل من مستوى ميدالية ذهبية في الأولمبياد الدولي للرياضيات، ومن ناحية أخرى، عند طرح السؤال بطريقة مختلفة، يرتكب أخطاء في رياضيات المرحلة الابتدائية. يبدو أنه يفتقر إلى شيء ما في التأمل الذاتي لعملية التفكير الخاصة به.

الوكيل والإبداع

للوصول إلى الذكاء العام الاصطناعي، يجب أن يكون لديك نظام قادر على حل المشكلات نيابةً عنك. العامل هو الطريق، وأعتقد أننا فقط بدأنا.
لم أرَ بعد أحدًا يستخدم "vibe coding" لإنشاء لعبة 3A تتصدر قائمة متجر التطبيقات. بناءً على الجهد المبذول حاليًا، يجب أن يكون هذا ممكنًا، لكنه لم يحدث بعد. وهذا يشير إلى أن هناك شيئًا ناقصًا في الأدوات أو العمليات.

التبخير والنماذج الصغيرة

نفترض أن قدرات نموذج Pro متقدم تُضغط إلى نماذج صغيرة جدًا يمكن تشغيلها على أجهزة الحافة بعد ستة أشهر إلى سنة من إصداره. لم نصل بعد إلى حدود كثافة المعلومات النظرية.

Scientific Discoveries and the "Einstein Test"

أحيانًا أسميه "اختبار أينشتاين": هل يمكن تدريب نظام باستخدام معرفة عام 1901، ثم جعله يستنتج بشكل مستقل النتائج التي توصل إليها أينشتاين عام 1905، بما في ذلك النسبية الخاصة؟ بمجرد القدرة على فعل ذلك، ستكون هذه الأنظمة على بعد خطوة واحدة من ابتكار أشياء جديدة بالكامل.
حل مشكلة واحدة من مسائل جائزة الألفية أمر رائع بالفعل. لكن الأصعب من ذلك هو能否提出一组新的千禧年大奖问题，而且是被顶尖数学家认为同样深刻、值得用一辈子去研究的问题。

نصائح ريادة الأعمال في التكنولوجيا المتقدمة

السؤال الصعب والسؤال السهل، في الحقيقة، متشابهان، فقط يختلفان في طريقة صعوبتهما. الحياة قصيرة، فلماذا لا تركز طاقتك على الأشياء التي إذا لم تفعلها، فلن يفعلها أحد آخر؟

مسار تحقيق AGI

غاري تان: لقد فكرت في الذكاء العام الاصطناعي لفترة أطول من معظم الناس. بناءً على النموذج الحالي، هل تعتقد أننا امتلكنا بالفعل جزءًا كبيرًا من البنية النهائية للذكاء العام الاصطناعي؟ ما الذي ينقصنا جوهريًا الآن؟

ديميس هاسابيس: التدريب المسبق الواسع النطاق، وRLHF، وسلسلة التفكير، إلخ. أنا واثق تمامًا أن هذه التقنيات ستكون جزءًا من البنية النهائية للذكاء العام الاصطناعي. لقد أثبتت هذه التقنيات الكثير من الأشياء حتى الآن. لا أستطيع أن أتخيل أننا بعد عامين سنكتشف أننا على طريق مسدود، فهذا لا يُعقل بالنسبة لي. لكن فوق ما لدينا بالفعل، قد نحتاج إلى عنصر أو عنصرين إضافيين. لا تزال هناك مشكلات غير محلولة تتعلق بالتعلم المستمر، والاستدلال طويل المدى، وبعض جوانب الذاكرة. يحتاج الذكاء العام الاصطناعي إلى حل كل هذه المشكلات. ربما يمكن توسيع التقنيات الحالية مع بعض الابتكارات التدريجية للوصول إلى هذا المستوى، لكن قد يبقى نقطة أو نقطتان كبيرتان وجوهريتان لم تُحَلّا بعد. لا أعتقد أن العدد سيتجاوز نقطة أو نقطتين. بناءً على تقديري الشخصي، احتمال وجود مثل هذه النقاط الجوهرية غير المحلولة هو تقريبًا 50-50. لذا، في Google DeepMind، نحن نستثمر في كلا المسارين.

gary tan: عندما أتعامل مع مجموعة من أنظمة الوكلاء، فإن ما أدهشني أكثر هو أن الأساس يدور دائمًا حول نفس الأوزان. لذا فإن مفهوم التعلم المستمر مثير جدًا، لأننا حاليًا نستخدم تقريبًا شريط لاصق مؤقت، مثل تلك الأشياء التي تُسمى "دورات الأحلام الليلية".

ديميس هاسابيس: نعم، دورات الأحلام هذه رائعة. لقد فكرنا سابقًا في دمج الذاكرة السياقية. كان موضوع أطروحتي الدكتوراه هو كيفية قيام الحصين بدمج المعرفة الجديدة بسلاسة ضمن النظام المعرفي القائم. يقوم الدماغ بهذه العملية بشكل ممتاز. إنه يُنفّذها أثناء النوم، خاصة أثناء مرحلة النوم بحركة العين السريعة (REM sleep)، حيث يعيد تشغيل التجارب المهمة لتعلمها. إحدى الطرق الأساسية التي مكّنت برنامجنا الأولي لـ Atari، وهو DQN (شبكة Q العميقة التي نشرتها DeepMind عام 2013، وكانت أول مرة تحقق فيها تعلمًا معززًا عميقًا مستوى إنسانيًا في ألعاب Atari) من إتقان ألعاب Atari، هو إعادة تجربة التجارب (experience replay). وقد استلمنا هذه الفكرة من علم الأعصاب، حيث يتم إعادة تشغيل المسارات الناجحة مرارًا وتكرارًا. كان ذلك عام 2013، وهو ما يُعد عصرًا قديمًا في مجال الذكاء الاصطناعي، لكنه كان حاسمًا آنذاك.

أنا أتفق معك، والآن نحن فعلاً نستخدم الشريط اللاصق لوضع كل شيء داخل نافذة السياق. هذا الشعور غير صحيح. حتى لو كنا نعمل على آلات وليس أدمغة بيولوجية، ويمكن نظرياً أن يكون لدينا نوافذ سياقية بملايين أو عشرات الملايين من الوحدات، ويمكن أن تكون الذاكرة مثالية، إلا أن تكلفة البحث والاسترجاع لا تزال موجودة. في هذه اللحظة التي تتطلب قرارات محددة، من الصعب العثور على المعلومات ذات الصلة حقاً، حتى لو استطعت تخزين كل شيء. لذا أعتقد أن هناك مساحة كبيرة للابتكار في مجال الذاكرة.

gary tan: بصراحة، نافذة السياق بمليون رمز هي أكبر بكثير مما توقعت، ويمكنها فعل أشياء كثيرة.

ديميس هاسابيس: إنه كبير بما يكفي لمعظم السيناريوهات التي يُفترض استخدامه فيها. لكن فكّر في أن نافذة السياق تشبه تقريبًا الذاكرة العاملة. الذاكرة العاملة البشرية متوسطها سبعة أرقام فقط، بينما لدينا نوافذ سياقية بملايين أو حتى عشرات الملايين من التوكنات. المشكلة أننا نملأها بكل شيء، بما في ذلك المعلومات غير المهمة أو الخاطئة، وهذه الطريقة حاليًا خشنة جدًا. وإذا كنت تحاول معالجة بث فيديو مباشر، وسجّلت كل التوكنات بشكل بريء، فمليون توكن ستكون كافية فقط لما يقارب 20 دقيقة. لكن إذا أردت أن يفهم النظام حياتك خلال شهرين أو ثلاثة، فهذا بعيد جدًا عن الكفاية.

gary tan: لقد كانت deepmind دائمًا ملتزمة بعمق بالتعلم المعزز والبحث، وكم من هذا الفلسفة تم تضمينه في عملية بناء gemini الحالية؟ هل لا يزال التعلم المعزز مُهملًا؟

ديميس هاسابيس: ربما تم تقليل قيمته حقًا. لقد شهدت الاهتمامات في هذا المجال تقلبات. لقد كنا نعمل على أنظمة الوكلاء منذ اليوم الأول لتأسيس DeepMind. جميع الأعمال التي أجريناها على Atari وAlphaGo كانت في جوهرها أنظمة وكلاء تعليم معزز، قادرة على إكمال الأهداف بشكل مستقل، واتخاذ القرارات، ووضع الخطط. بالطبع، اخترنا مجال الألعاب في البداية لأن تعقيدها قابل للتحكم، ثم تقدمنا تدريجيًا إلى ألعاب أكثر تعقيدًا، مثل AlphaStar بعد AlphaGo، حيث قمنا تقريبًا بتنفيذ جميع الألعاب التي يمكننا القيام بها.

السؤال التالي هو: هل يمكن تعميم هذه النماذج لتصبح نماذج عالمية أو نماذج لغوية، وليس فقط نماذج للألعاب؟ لقد كنا نعمل على هذا خلال السنوات القليلة الماضية. إن نمط التفكير والاستدلال السلسلي الذي تستخدمه جميع النماذج الرائدة اليوم هو في جوهره عودة إلى ما ابتكره AlphaGo في ذلك الوقت. أعتقد أن الكثير من الأعمال التي قمنا بها في ذلك الوقت ذات صلة وثيقة بما يحدث اليوم، ونحن نعيد النظر في تلك الأفكار القديمة باستخدام حجم أكبر وطريقة أكثر شمولاً، بما في ذلك طرق التعلم المعزز المختلفة مثل بحث شجرة مونت كارلو (Monte Carlo tree search). إن أفكار AlphaGo وAlphaZero ذات صلة وثيقة جدًا بالنماذج الأساسية اليوم، وأعتقد أن جزءًا كبيرًا من التقدم في السنوات القادمة سيأتي من هذا المصدر.

التبخير والنماذج الصغيرة

غاري تان: الآن للذكاء الأكبر، تحتاج إلى نماذج أكبر، لكن تقنيات التقطيع تتطور أيضًا، ويمكن للنماذج الصغيرة أن تصبح سريعة جدًا. نماذج Flash الخاصة بكم قوية جدًا، وتصل تقريبًا إلى 95% من أداء النماذج الرائدة، لكن سعرها فقط عُشر السعر. أليس كذلك؟

ديميس هاسابيس: أعتقد أن هذا أحد ميزاتنا الأساسية. يجب عليك أولاً بناء أكبر نموذج للحصول على القدرات الرائدة. أحد أكبر ميزاتنا هو القدرة على تقطير وضغط هذه القدرات بسرعة إلى نماذج أصغر وأصغر. لقد اخترعنا طريقة التقطير هذه، وما زلنا الأفضل عالمياً في هذا المجال. كما أن لدينا دافعًا تجاريًا قويًا جدًا للقيام بذلك. نحن على الأرجح أكبر منصة تطبيقات ذكاء اصطناعي في العالم. نمتلك ميزات "نظرة ذكية" و"وضع الذكاء الاصطناعي" و"جيميني"، وكل منتج من منتجات جوجل، بما في ذلك الخرائط ويوتيوب، يدمج جيميني أو التقنيات ذات الصلة. وهذا يشمل مليارات المستخدمين، وعشرات المنتجات التي لديها مليارات المستخدمين. يجب أن تكون هذه المنتجات سريعة جدًا وفعالة جدًا وذات تكلفة منخفضة جدًا وتأخير منخفض جدًا. وهذا يمنحنا دافعًا هائلاً لجعل نماذج فلاش وفلاش-لايت الأصغر أكثر كفاءة قصوى، وأتمنى أن يخدم هذا في النهاية جميع احتياجات المستخدمين في أعمالهم.

gary tan: أتساءل إلى أي مدى يمكن لهذه النماذج الصغيرة أن تكون ذكية. هل هناك حدود للتخمير؟ هل يمكن لنماذج بحجم 50B أو 400B أن تكون بنفس ذكاء أكبر النماذج الرائدة اليوم؟

ديميس هاسابيس: لا أعتقد أننا وصلنا إلى حدود نظرية المعلومات، على الأقل لا أحد يعرف حتى الآن ما إذا كنا وصلنا إليها. ربما في يوم ما سنواجه سقفًا للكثافة المعلوماتية، لكن حاليًا نفترض أنه بعد إصدار نموذج Pro متقدم، ستُضغط قدراته خلال ستة إلى اثني عشر شهرًا إلى نموذج صغير جدًا يمكن تشغيله تقريبًا على الأجهزة الطرفية. يمكنك أيضًا رؤية ذلك في نماذج Gemma، حيث يُظهر نموذج Gemma 4 لدينا أداءً قويًا جدًا مقارنة بحجمه نفسه. وقد استُخدمت في ذلك تقنيات تقطيع كبيرة وتقنيات تحسين كفاءة النماذج الصغيرة. لذا أنا حقًا لا أرى أي حدود نظرية، وأعتقد أننا ما زلنا بعيدين جدًا عن ذلك الحد.

gary tan: هناك ظاهرة غير معقولة الآن، حيث يمكن للمهندسين إنجاز ما يعادل 500 إلى 1000 ضعف كمية العمل التي كانوا ينجزونها قبل ستة أشهر. بعض الأشخاص في هذا الغرفة ينجزون ما يعادل ألف ضعف كمية العمل التي كان مهندس في جوجل ينجزها في عقد 2000. هذا ما ذكره steve yegge.

ديميس هاسابيس: أشعر بالإثارة. هناك العديد من الاستخدامات للنماذج الصغيرة. أحدها هو التكلفة المنخفضة والسرعة العالية، مما يجلب فوائد أيضًا. عند كتابة الكود أو مهام أخرى، يمكنك التكرار بسرعة أكبر، خاصة عند التعاون مع النظام. حتى إذا لم يكن النظام الأسرع هو الأحدث، مثل أن يكون بمستوى 90% إلى 95% فقط من الأحدث، إلا أنه كافٍ تمامًا، وفوائد السرعة التي تكسبها في التكرار تفوق بكثير تلك الـ 10%.

الاتجاه الآخر الكبير هو تشغيل هذه النماذج على أجهزة الحافة، ليس فقط من أجل الكفاءة، بل أيضًا من أجل الخصوصية والأمان. فكّر في مختلف الأجهزة التي تعالج معلومات خاصة جدًا، وكذلك الروبوتات؛ بالنسبة للروبوت في منزلك، ستريد تشغيل نموذج فعّال وقوي محليًا، وتُفوّض المهام إلى نموذج سحابي كبير فقط في سيناريوهات محددة. يتم معالجة تدفقات الصوت والفيديو محليًا، وتبقى البيانات محليًا، وأستطيع أن أتخيل أن هذا سيكون حالة نهائية ممتازة.

الذاكرة والاستدلال

غاري تان: العودة إلى السياق والذاكرة. النموذج حاليًا بدون حالة، فما هي تجربة المطور إذا امتلك قدرة على التعلم المستمر؟ كيف توجه مثل هذا النموذج؟

ديميس هاسابيس: هذا سؤال مثير للاهتمام. إن نقص التعلم المستمر هو عقبة رئيسية تمنع الوكلاء الحالية من إكمال المهام الكاملة. فالوكلاء الحالية مفيدة جدًا في الأجزاء الجزئية من المهام، ويمكنك دمجها معًا لإنجاز أشياء رائعة، لكنها لا تستطيع التكيف جيدًا مع بيئتك المحددة. وهذا هو السبب في أنها لا تزال غير قادرة على "الإطلاق ثم النسيان" حقًا، فهي تحتاج إلى القدرة على تعلم سياقك المحدد. لبلوغ الذكاء العام الكامل، يجب حل هذه المشكلة.

gary tan: أين وصلنا في مجال الاستدلال؟ إن سلسلة التفكير للنموذج قوية الآن، لكنه لا يزال يرتكب أخطاءً لا يرتكبها طلاب جامعيون ممتازون. ما الذي يحتاج إلى تعديله بالضبط؟ ما التقدم المتوقع في مجال الاستدلال؟

ديميس هاسابيس: لا يزال هناك مساحة كبيرة للابتكار في نماذج التفكير. الأشياء التي نقوم بها لا تزال خشنة إلى حد كبير وعنيفة. هناك العديد من اتجاهات التحسين الممكنة، مثل مراقبة عملية سلسلة التفكير وإجراء تدخلات أثناء التفكير. أشعر غالبًا أن أنظمتنا أو أنظمة منافسينا، بطريقة ما، تفكر بشكل مفرط وتدخل في دوائر مفرغة.

أحيانًا أحب مراقبة لعبة الشطرنج التي تلعبها Gemini. من المثير للاهتمام أن جميع النماذج الأساسية الرائدة تكون سيئة نسبيًا في لعب الشطرنج. إن مراقبة مسارات تفكيرها ذات قيمة، لأن الشطرنج مجال مفهوم جيدًا، ويمكنني التحقق بسرعة مما إذا كانت قد انحرفت عن المسار أو ما إذا كان استدلالها فعالًا. ما نراه هو أنه أحيانًا تفكر في حركة معينة، وتدرك أنها حركة سيئة، لكنها لا تستطيع العثور على حركة أفضل، فتعود في النهاية وتلعب تلك الحركة السيئة. لا ينبغي لمنظومة استدلال دقيقة أن تظهر هذا السلوك.

لا يزال هذا الفرق الهائل موجودًا، لكن تصحيحه قد يتطلب فقط تعديلًا واحدًا أو اثنين. وهذا هو السبب في أنك ترى ما يُسمى "الذكاء المتموج" (jagged intelligence)، الذي يمكنه حل مسائل على مستوى الميدالية الذهبية في الأولمبياد الدولي للرياضيات، لكنه يرتكب أخطاء في مسائل رياضية ابتدائية عند طرح السؤال بطريقة مختلفة. يبدو أن هناك شيئًا ناقصًا في التأمل الذاتي لعملية التفكير.

القدرات الحقيقية للوكيل

غاري تان: العامل هو موضوع كبير. يقول البعض إنه مجرد تضخيم. أعتقد شخصيًا أننا فقط في البداية. ما هو التقييم الحقيقي لقدرات العامل داخل ديب ميند، وما مدى الفرق بينه وبين الترويج الخارجي؟

ديميس هاسابيس: أتفق معك، نحن فقط بدأنا. لتحقيق الذكاء العام الاصطناعي، يجب أن يكون لديك نظام قادر على حل المشكلات نيابةً عنك. هذا كان واضحًا لنا دائمًا. الوكلاء هم الطريق، وأعتقد أننا فقط بدأنا. الجميع يحاولون فهم كيفية جعل الوكلاء يعملون معًا بشكل أفضل، وقد قمنا بالكثير من التجارب الشخصية، وربما فعل الكثير منكم هنا أيضًا. كيف ندمج الوكلاء في سير العمل بحيث لا يكونوا مجرد إضافة زخرفية، بل يقومون بأشياء جوهرية حقًا. حاليًا، ما زلنا في مرحلة التجربة. ربما بدأنا للتو، خلال الشهرين أو الثلاثة أشهر الماضية، في العثور على سيناريوهات ذات قيمة حقيقية. التقنية وصلت للتو إلى تلك المرحلة، لم تعد عروض توضيحية ترفيهية، بل تقدم حقًا قيمة في وقتك وكفاءتك.

أرى كثيرًا من الناس يطلقون عشرات الوكلاء لتشغيلها لعشرات الساعات، لكنني لست متأكدًا بعد من أن الإنتاج سيتناسب مع هذا الاستثمـار.

لم نرَ بعد أحدًا يستخدم "vibe coding" لإنشاء لعبة 3A تتصدر قائمة متجر التطبيقات. لقد كتبتُ أنا أيضًا، وكثير منكم هنا قاموا بعمل بعض العروض التوضيحية الصغيرة الجيدة. يمكنني الآن إنشاء نموذج أولي لـ "Theme Park" في نصف ساعة، بينما استغرقني الأمر ستة أشهر عندما كنت في السابعة عشرة من عمري. لدي شعور أنه إذا قضيت صيفًا كاملًا في ذلك، يمكنك إنشاء شيء حقيقي لا يُصدق. لكنه لا يزال يحتاج إلى حرفة وروح الإنسان وذوقه، ويجب أن تتأكد من إدخال هذه العناصر في أي منتج تبنيه. في الواقع، لم يُنشئ أي طفل حتى الآن لعبة ناجحة باعت أكثر من عشرة ملايين نسخة، ومن المنطقي أن تكون هذه المهمة ممكنة مع الأدوات الحالية. لذا هناك شيء ناقص، ربما يتعلق بالعمليات أو بالأدوات. أتوقع أن أرى مثل هذه النتائج خلال الأشهر الستة إلى الاثني عشر القادمة.

gary tan: إلى أي درجة ستكون تلقائية بالكامل؟ أعتقد أن الأمر لن يكون تلقائيًا بالكامل من البداية. الطريق الأكثر احتمالًا هو أن الأشخاص الحاضرين يحققون كفاءة تبلغ 1000 ضعف، ثم يظهر شخص يستخدم هذه الأدوات لإنشاء تطبيقات أو ألعاب شهيرة، وبعد ذلك سيتم أتمتة مراحل أكثر.

ديميس هاسابيس: نعم، هذا هو ما يجب أن تراه أولاً.

gary tan: هناك أيضًا سبب جزئي متمثل في أن بعض الأشخاص يقومون بذلك بالفعل، لكنهم لا يرغبون في الإعلان عن مدى مساعدة العامل.

ديميس هاسابيس: ربما. لكنني أرغب في التحدث عن مسألة الإبداع. أستخدم غالبًا مثال AlphaGo، الجميع يعرف الحركة 37 في المباراة الثانية. بالنسبة لي، كنت أنتظر دائمًا لحظة كهذه، وبعد ظهورها، بدأت مشاريع علمية مثل AlphaFold. بدأنا العمل على AlphaFold في اليوم التالي لعودتنا من سيول، وهذا قبل عشر سنوات. لقد جئت إلى كوريا هذا الوقت للاحتفال بالذكرى العاشرة لـ AlphaGo.

لكن مجرد الخروج من الحركة 37 غير كافٍ. إنها رائعة ومفيدة. لكن هل يمكن لهذا النظام اختراع لعبة Go نفسها؟ إذا أعطيت النظام وصفًا عالي المستوى، مثل "لعبة يمكن تعلم قواعدها في خمس دقائق، لكن من المستحيل إتقانها خلال حياة كاملة، وهي أنيقة جماليًا، ويمكن لعب جولة واحدة خلال فترة بعد الظهر"، ثم أعاد النظام إليك نتيجة لعبة Go. لا يستطيع النظام الحالي فعل ذلك. السؤال هو لماذا؟

gary tan: ربما يكون أحد الحاضرين هو من يستطيع ذلك.

ديميس هاسابيس: إذا نجح أحد ما، فليس المقصود أن النظام ناقص، بل أن طريقة استخدامنا للنظام هي المشكلة. ربما هذا هو الإجابة الصحيحة. ربما يمتلك النظام اليوم هذه القدرة بالفعل، لكنه يحتاج إلى مبدعٍ كفؤٍ بما يكفي لتشغيله، ليمنح المشروع روحه، مع أن يكون هذا الشخص متكاملًا تمامًا مع الأداة، كأنه يندمج معها تقريبًا. إذا كنت تقضي يومك وليلك في هذه الأدوات وتتمتع بإبداع عميق، فقد تتمكن من إنشاء أشياء تفوق الخيال.

مفتوح المصدر ونماذج متعددة الوسائط

غاري تان: دعونا نغير الموضوع ونتحدث عن البرمجيات المفتوحة المصدر. أخيرًا، أطلقت Gemma نماذج قوية جدًا يمكن تشغيلها محليًا. ما رأيك؟ هل ستصبح الذكاء الاصطناعي شيئًا يتحكم فيه المستخدمون أنفسهم، بدلاً من البقاء مقتصرًا على السحابة؟ هل سيغير هذا من يمكنه استخدام هذه النماذج لبناء منتجات؟

ديميس هاسابيس: نحن ندعم بقوة المفتوح المصدر والعلم المفتوح. لقد قمنا بفتح AlphaFold مجانًا بالكامل. لا تزال أبحاثنا العلمية تُنشر في المجلات الرائدة حتى اليوم. فيما يتعلق بـ Gemma، نريد إنشاء نماذج رائدة عالميًا بحجم مماثل. حتى الآن، بلغ عدد تنزيلات Gemma حوالي 40 مليون مرة، وذلك بعد إطلاقها بفترة لا تزيد عن أسبوعين ونصف.

أعتقد أيضًا أن وجود بنية تقنية غربية في مجال مفتوح المصدر مهم. نماذج مفتوح المصدر الصينية ممتازة وتتصدر حاليًا في مجال مفتوح المصدر، لكننا نرى أن Gemma تنافسية جدًا ضمن نفس الحجم.

هناك أيضًا مشكلة في الموارد، فلا أحد يمتلك قوة حوسبة زائدة لتشغيل نموذجين رائدين بحجم كامل. لذا فإن قرارنا الحالي هو: استخدام نماذج الحافة لـ Android والنظارات والروبوتات وغيرها، ويجب جعلها نماذج مفتوحة، لأنها بمجرد نشرها على الأجهزة تكون عرضة بالفعل، لذا من الأفضل فتحها بالكامل من البداية. لقد وحدنا استراتيجيتنا المفتوحة على مستوى النانو، وهو ما يُعد منطقيًا استراتيجيًا أيضًا.

gary tan: قبل الصعود إلى المسرح، عرضت عليك نظام التشغيل الذكي الذي صنعته، حيث يمكنني التفاعل مباشرة مع gemini عبر الصوت، وكان لديّ بعض التوتر أثناء العرض، لكنه نجح في النهاية. تم تصميم gemini منذ البداية كنموذج متعدد الأوضاع. لقد استخدمت العديد من النماذج، لكن لا يوجد أي نموذج آخر يمتلك حتى الآن قدرة مماثلة على التفاعل المباشر من الصوت إلى النموذج، بالإضافة إلى قدرات استدعاء الأدوات وفهم السياق العميق مثل gemini.

ديميس هاسابيس: نعم. أحد المزايا التي لم تُدرَك بشكل كافٍ في سلسلة Gemini هو أننا بنيّناها منذ البداية كنموذج متعدد الوسائط. هذا جعل البداية أصعب مقارنةً بالاعتماد فقط على النص، لكننا نؤمن أننا سنستفيد على المدى الطويل، والآن بدأ هذا الاستفادة بالتحقق. على سبيل المثال، في مجال نماذج العالم، قمنا ببناء Genie (نموذج البيئة التوليدية التفاعلية الذي طوره DeepMind) على أساس Gemini. ونفس الشيء في مجال الروبوتات، حيث سيُبنى Gemini Robotics على نموذج أساسي متعدد الوسائط، وستصبح ميزتنا في متعدد الوسائط حاجزًا تنافسيًا. ونستخدم Gemini بشكل متزايد أيضًا في Waymo (شركة السيارات ذاتية القيادة التابعة لـ Alphabet).

تخيل مساعدًا رقميًا يرافقك في العالم الحقيقي، ربما على هاتفك أو نظاراتك، ويحتاج إلى فهم العالم المادي والبيئة من حولك. نظامنا قوي جدًا في هذا المجال. سنستمر في الاستثمار في هذا الاتجاه، وأعتقد أن ميزتنا التنافسية في هذا النوع من المشكلات كبيرة جدًا.

gary tan: تكاليف الاستدلال تنخفض بسرعة. ما الذي يصبح ممكنًا عندما يصبح الاستدلال مجانيًا تقريبًا؟ هل سيتغير اتجاه تحسين فريقكم بسبب ذلك؟

ديميس هاسابيس: لست متأكدًا أن الاستدلال سيكون مجانيًا حقًا، فمفارقة جيفونز موجودة هناك. أعتقد أن الجميع في النهاية سيستخدمون كل قوة الحوسبة التي يمكنهم الحصول عليها. يمكن تصور مجموعات من ملايين الوكلاء تعمل معًا، أو مجموعة صغيرة من الوكلاء تفكر في اتجاهات متعددة في وقت واحد ثم تدمج النتائج. نحن جميعًا نجرب هذه الاتجاهات، وكلها ستستهلك موارد الاستدلال المتاحة.

من حيث الطاقة، إذا حلينا بعض المشكلات مثل الاندماج النووي الخاضع للتحكم، والموصلية الفائقة عند درجة حرارة الغرفة، وأفضل البطاريات، فأعتقد أننا سنحقق ذلك من خلال علوم المواد، فستقترب تكلفة الطاقة من الصفر. لكن لا تزال هناك عقبات في مراحل التصنيع الفيزيائي للرقائق، على الأقل خلال العقود القادمة. لذا ستظل هناك قيود على كميات الاستخدام في جانب الاستنتاج، وسيظل من الضروري استخدامها بكفاءة.

الانطلاقة العلمية القادمة

gary tan: من الجيد أن النماذج الصغيرة تصبح أكثر ذكاءً. هناك العديد من المؤسسين في مجالات البيولوجيا والتكنولوجيا الحيوية هنا. لقد تجاوز AlphaFold 3 البروتينات وامتد إلى جزيئات حيوية أوسع نطاقًا. كم نبعد عن نمذجة أنظمة الخلايا الكاملة؟ هل هذه مشكلة من مستوى صعوبة مختلف تمامًا؟

ديميس هاسابيس: تقدم Isomorphic Labs ممتاز. AlphaFold هو مجرد جزء واحد من عملية اكتشاف الأدوية، ونحن نقوم بأبحاث كيميائية حيوية مجاورة، وتصميم مركبات ذات الخصائص الصحيحة، وسيكون هناك إعلان كبير قريبًا.

الهدف النهائي هو إنشاء خلية افتراضية كاملة، محاكي خلية وظيفي يمكن تطبيق اضطرابات عليه، بحيث تكون مخرجاته قريبة بما يكفي من النتائج التجريبية وتكون ذات فائدة عملية. يمكنك تخطي خطوات بحث كثيرة، وتوليد كميات كبيرة من البيانات الاصطناعية لتدريب نماذج أخرى على التنبؤ بسلوك الخلايا الحقيقية.

أقدّر أننا ما زلنا بحاجة إلى عقد تقريبًا للوصول إلى خلية افتراضية كاملة. نحن في الجانب العلمي في DeepMind نبدأ من النواة الافتراضية، لأن النواة نسبيًا ذاتية الاستقلال. المفتاح في هذا النوع من المسائل هو القدرة على قطع شريحة من التعقيد المناسب، تكون كافية من حيث الاستقلال، ويمكنك تقريب إدخالها وخرجها بشكل معقول، ثم التركيز على هذا النظام الفرعي. من هذا المنظور، النواة مناسبة جدًا.

مشكلة أخرى هي نقص البيانات. تحدثت مع علماء رائدين في مجال المجهر الإلكتروني وتقنيات التصوير الأخرى. إذا كان من الممكن تصوير الخلايا الحية دون قتلها، فسيكون ذلك ثوريًا، لأنه سيحول المشكلة إلى مشكلة بصرية، ونحن نعرف كيفية حل المشكلات البصرية. لكن وفقًا لما أعرفه، لا توجد حاليًا أي تقنية يمكنها تصوير الخلايا الديناميكية الحية بدقة نانومترية دون إتلافها. يمكنك التقاط صور ثابتة بهذا المستوى من الدقة، وهو أمر دقيق جدًا ومثير، لكنه لا يكفي لتحويلها مباشرة إلى مشكلة بصرية.

هناك طريقان: أحدهما مبني على الأجهزة والبيانات، والآخر هو بناء محاكيات قابلة للتعلم أفضل لمحاكاة هذه الأنظمة الديناميكية.

غاري تان: أنت لا تنظر فقط إلى البيولوجيا. علوم المواد، اكتشاف الأدوية، نمذجة المناخ، الرياضيات، إذا كان يجب ترتيبها، أي مجال علمي سيُعاد تشكيله بشكل أكثر جذرية في الخمس سنوات القادمة؟

ديميس هاسابيس: كل مجال مثير، وهذا هو السبب في أن هذا كان دائمًا شغفي الأكبر، والسبب في أنني أعمل في الذكاء الاصطناعي منذ أكثر من 30 عامًا. لقد اعتقدت دائمًا أن الذكاء الاصطناعي سيكون الأداة النهائية للعلم لدفع فهم العلم واكتشافاته والطب وفهمنا للكون.

كنا في البداية نصيغ مهمتنا على شكل خطوتين. الخطوة الأولى: حل الذكاء، أي بناء AGI؛ والخطوة الثانية: استخدامه لحل جميع المشكلات الأخرى. لاحقًا، اضطررنا إلى تعديل الصياغة لأن البعض كان يسأل: "هل تقصدون حقًا حل جميع المشكلات؟" نعم، هذا بالضبط ما نقصده. والآن يبدأ الناس في فهم ما يعنيه ذلك. على وجه التحديد، أشير إلى حل المجالات العلمية التي أسميها "مشكلات الجذور"، وهي المجالات التي، عند تحقيق اختراق فيها، تفتح فروعًا جديدة من الاكتشافات. كان AlphaFold نموذجًا لما نريد تحقيقه. أكثر من ثلاثة ملايين باحث حول العالم، تقريبًا كل باحث في علم الأحياء، يستخدمون الآن AlphaFold. سمعت من بعض أصدقائي التنفيذيين في شركات الأدوية أن كل دواء يُكتشف في المستقبل تقريبًا سيستخدم AlphaFold في مرحلة ما من عملية اكتشاف الدواء. نحن فخورون بذلك، وهذا هو النوع من التأثير الذي نأمل أن تُحدثه الذكاء الاصطناعي. لكنني أعتقد أن هذا مجرد البداية.

لا أستطيع التفكير في أي مجال علمي أو هندسي لا يمكن للذكاء الاصطناعي مساعدته. المجالات التي ذكرتها أراها تقريبًا في "لحظة AlphaFold 1"، حيث تكون النتائج واعدة للغاية، لكنها لم تحل بعد التحديات الكبرى في تلك المجالات. سنكون قادرين على مناقشة تقدم كبير في جميع هذه المجالات خلال السنتين القادمتين، بدءًا من علوم المواد وحتى الرياضيات.

gary tan: يشبه ذلك قدرة بروميتيوسية تمنح البشر قدرة جديدة تمامًا.

ديميس هاسابيس: نعم. بالطبع، كما تُظهر قصة بروميثيوس، يجب أن نكون حذرين بشأن كيفية استخدام هذه القدرة، وأين تُستخدم، ومخاطر إساءة استخدام نفس الأدوات.

تجارب ناجحة

غاري تان: هناك العديد من الأشخاص هنا الذين يحاولون إنشاء شركات تطبق الذكاء الاصطناعي على العلوم. في رأيك، ما الفرق بين الشركات الناشئة التي تدفع حقًا حدود المعرفة وتلك التي تضع فقط واجهة برمجة تطبيقات على نماذج أساسية ثم تدّعي أنها "ذكاء اصطناعي للعلوم"؟

ديميس هاسابيس: أفكر في ماذا سأفعل لو كنت جالسًا في مقعدكم اليوم، وأنا أتابع المشاريع في Y Combinator. شيء واحد هو أن عليك توقع اتجاه تقنية الذكاء الاصطناعي، وهو أمر صعب بحد ذاته. لكنني أعتقد بالفعل أن دمج اتجاه الذكاء الاصطناعي مع مجال تقني عميق آخر يحمل فرصًا هائلة. هذه النقطة التقاطعية، سواء كانت المواد أو الطب أو غيرها من المجالات العلمية الصعبة حقًا، خاصة تلك التي تتعلق بعالم الذرات، لن يكون لها طريق مختصر في المستقبل المنظور. هذه المجالات لن تُهزم بسبب تحديث النموذج الأساسي القادم. لكن إذا كنت تبحث عن اتجاهات ذات حماية قوية، فهذا ما أنصح به.

أنا دائمًا ما كنت أميل إلى التكنولوجيا العميقة. الأشياء الحقيقية المستدامة والقيمة لا تأتي بسهولة. كنت دائمًا مُنجذبًا إلى التكنولوجيا العميقة. عندما بدأنا في عام 2010، كان الذكاء الاصطناعي تكنولوجيا عميقة — قال لي المستثمرون: "نحن نعرف أن هذا لا يعمل"، كما اعتبره الأكاديميون اتجاهًا هامشيًا جُرب في التسعينات وفشل. لكن إذا كنت تملك إيمانًا بفكرتك — لماذا سيكون هذا مختلفًا هذه المرة، وما هي المجموعة الفريدة من خلفيتك — فمن الأفضل أن تكون أنت خبيرًا بنفسك في التعلم الآلي والتطبيقات، أو أن تستطيع تشكيل فريق مؤسس من هذا القبيل — فهناك إمكانات هائلة للتأثير والقيمة التي يمكن خلقها.

gary tan: هذه معلومة مهمة. شيء ما يبدو واضحًا بعد إنجازه، لكن قبل إنجازه، يعارضك الجميع.

ديميس هاسابيس: بالطبع، يجب أن تفعل ما تشعر بحماس حقيقي تجاهه. بالنسبة لي، سأقوم بالذكاء الاصطناعي مهما حدث. قررت في سن مبكرة أن هذا هو أكثر شيء يمكنني التفكير فيه من حيث التأثير. وقد أثبتت الأمور صحة ذلك، لكنه قد لا يكون كذلك، فقد نكون متقدمين بخمسين عامًا. كما أنه أيضًا أكثر شيء يمكنني التفكير فيه من حيث الإثارة. حتى لو كنا اليوم لا نزال في مرآب صغير ولم نُنشئ الذكاء الاصطناعي بعد، فسأجد طريقة للاستمرار. ربما أعود إلى الأوساط الأكاديمية، لكنني سأجد طريقة ما للاستمرار.

gary tan: alphafold هو مثال على مسار كنت تتبعه وربحت الرهان. ما الذي يجعل مجالًا علميًا مناسبًا لإحداث اختراق على غرار alphafold؟ هل هناك قواعد، مثل دالة هدف معينة؟

ديميس هاسابيس: أعتقد حقًا أنني يجب أن أخصص وقتًا لكتابة هذا. ما تعلمته من جميع مشاريع Alpha مثل AlphaGo وAlphaFold هو أن تقنياتنا الحالية تعمل بأفضل شكل عندما تكون المسألة ذات فضاء بحث توافقي هائل، وكلما كان أكبر كان أفضل، إلى درجة لا يمكن لأي طريقة قوة خشنة أو خوارزمية خاصة حلها. فضاء حركات لعبة Go وفضاء تكوينات البروتينات يتجاوزان بكثير عدد الذرات في الكون. ثانيًا، يمكنك تعريف دالة الهدف بوضوح، مثل تقليل الطاقة الحرة للبروتين أو الفوز في لعبة Go، بحيث يمكن للنظام إجراء صعود التدرج. ثالثًا، يجب أن يكون لديك كمية كافية من البيانات، أو محاكي يمكنه توليد كمية كبيرة من بيانات اصطناعية ضمن التوزيع.

إذا كانت هذه الشروط الثلاثة صحيحة، فإن الطريقة الحالية يمكن أن تأخذك بعيدًا للعثور على "الإبرة في كومة قش" التي تحتاجها. نفس المنطق ينطبق على اكتشاف الأدوية: هناك مركب معين يمكنه علاج هذا المرض دون آثار جانبية، وطالما أن القوانين الفيزيائية تسمح بوجوده، فإن المشكلة الوحيدة هي كيفية العثور عليه بكفاءة وقابلية للتنفيذ. أعتقد أن AlphaFold أثبتت لأول مرة أن مثل هذه الأنظمة قادرة على العثور على هذه الإبرة داخل مساحة بحث هائلة.

غاري تان: أريد أن أرتقي إلى مستوى أعلى. نحن نتحدث عن كيف خلق البشر AlphaFold باستخدام هذه الطرق، لكن هناك مستوىً أعمق، حيث يستخدم البشر الذكاء الاصطناعي لاستكشاف فضاء الافتراضات الممكنة. كم نبعد عن أن تتمكن أنظمة الذكاء الاصطناعي من إجراء استدلال علمي حقيقي (وليس فقط مطابقة الأنماط على البيانات)؟

ديميس هاسابيس: أعتقد أننا قريبون جدًا. نحن نعمل على أنظمة عامة من هذا النوع. لدينا نظام يُدعى AI co-scientist، وخوارزميات مثل AlphaEvolve، التي تستطيع القيام بأشياء تتجاوز Gemini الأساسي. جميع المختبرات الرائدة تبحث في هذا الاتجاه.

لكن حتى الآن، لم أرَ شخصيًا أي اكتشاف علمي حقيقي أو كبير تم إجراؤه بواسطة هذه الأنظمة. أعتقد أنه قريب الحدوث. ربما يكون مرتبطًا بالإبداع الذي ناقشناه سابقًا، والاختراق الحقيقي للحدود المعروفة. عند هذا المستوى، لم يعد الأمر متعلقًا بمطابقة الأنماط، لأن هناك أنماطًا لا يمكن مطابقتها. كما أنه ليس مجرد استنتاج خارجي، بل نوع من الاستدلال التمثيلي (analogical reasoning)، وأعتقد أن هذه الأنظمة لا تمتلكه حاليًا، أو أننا لم نستخدمها بالطريقة الصحيحة بعد.

أحد المعايير التي أستخدمها غالبًا في المجال العلمي هو ما إذا كان يمكنه طرح فرضية مثيرة حقًا، وليس فقط التحقق منها. فعلى الرغم من أن التحقق من فرضية قد يكون حدثًا ضخمًا بحد ذاته، مثل إثبات فرضية ريمان أو حل مشكلة من مشكلات جائزة الألفية، إلا أننا ربما نبقى على بعد بضع سنوات فقط من تحقيق هذا المستوى.

لكن الأصعب من ذلك هو能否提出一组 جديدة من مسائل جائزة الألفية، وتُعتبر من قبل أعظم الرياضيين بنفس العمق وتجدر بالدراسة طوال الحياة. أعتقد أن هذا أصعب بدرجة كبيرة، ونحن حاليًا لا نعرف كيف نحقق ذلك. لكنني لا أعتقد أن هذا سحر، وأنا أؤمن أن هذه الأنظمة ستتمكن في النهاية من تحقيقه، ربما تحتاج فقط إلى شيء أو شيئين إضافيين.

الطريقة التي يمكننا استخدامها للاختبار هي ما أسميه أحيانًا "اختبار أينشتاين": هل يمكنك تدريب نظام باستخدام المعرفة المتاحة في عام 1901، ثم جعله يستنتج بشكل مستقل النتائج التي توصل إليها أينشتاين في عام 1905، بما في ذلك النسبية الخاصة وأوراقه الأخرى لتلك السنة؟ أعتقد أننا يجب أن نجري هذا الاختبار فعليًا، ونكرره مرارًا وتكرارًا حتى نتمكن من تحقيقه. بمجرد أن نتمكن من ذلك، ستكون هذه الأنظمة على بعد خطوة واحدة فقط من اختراع أشياء جديدة بالكامل.

نصائح ريادة الأعمال

غاري تان: السؤال الأخير. هناك العديد من الأشخاص هنا لديهم خلفية تقنية عميقة ويريدون تحقيق شيء على غرار حجمكم، كونكم أحد أكبر منظمات البحث في الذكاء الاصطناعي عالميًا. لقد مررتم من خط المقدمة في أبحاث AGI، ما الشيء الذي تعرفونه الآن ولكنكم تمنيتم لو كنتم تعرفونه عندما كنتم في الخامسة والعشرين؟

ديميس هاسابيس: في الواقع، لقد تناولنا جزءًا من هذا بالفعل. ستجد أن مواجهة المشكلات الصعبة ومواجهة المشكلات البسيطة تتطلب نفس المستوى من الصعوبة، لكن طبيعة الصعوبة تختلف. لكل شيء صعوبته الخاصة. لكن الحياة قصيرة والطاقة محدودة، لذا من الأفضل أن تركز طاقتك على الأمور التي إذا لم تقم بها فلن يفعلها أحد آخر. اختر وفقًا لهذا المعيار.

بالإضافة إلى ذلك، أعتقد أن التوليفات عبر المجالات ستكون أكثر شيوعًا في السنوات القادمة، وستجعل الذكاء الاصطناعي التوليفات عبر المجالات أسهل.

النقطة الأخيرة تعتمد على جدول زمني لـ AGI الخاص بك. جدولي هو حوالي عام 2030. إذا بدأت مشروعًا تقنيًا عميقًا اليوم، فهذا عادةً يعني رحلة مدتها عشر سنوات. لذلك يجب أن تأخذ في الاعتبار ظهور AGI في منتصف الطريق. ماذا يعني ذلك؟ ليس بالضرورة شيئًا سيئًا، لكن يجب أن تأخذه في الاعتبار. هل يمكن لمشروعك الاستفادة من AGI؟ كيف ستتفاعل أنظمة AGI مع مشروعك؟

بالعودة إلى العلاقة بين AlphaFold وأنظمة الذكاء العام، فإن السيناريو الذي أستطيع توقعه هو أن أنظمة الذكاء العام مثل Gemini أو Claude أو أنظمة مشابهة ستستخدم أنظمة متخصصة مثل AlphaFold كأدوات تستدعيها. لا أعتقد أننا سنضخ كل شيء داخل "دماغ" واحد ضخم؛ فإدخال جميع بيانات البروتينات داخل Gemini لا معنى له، فـ Gemini لا تحتاج إلى طي البروتينات. وبالعودة إلى ما ذكرته عن كفاءة المعلومات، فإن تلك البيانات البروتينية ستؤدي بالتأكيد إلى إبطاء قدرتها اللغوية. الطريقة الأفضل هي وجود نماذج عامة قوية جدًا في استخدام الأدوات، يمكنها استدعاء وحتى تدريب تلك الأدوات المتخصصة، لكن الأدوات المتخصصة تظل أنظمة مستقلة.

هذا التفكير يستحق التأمل العميق، فهو يؤثر على ما تبنيه اليوم، بما في ذلك نوع المصنع الذي تنشئه ونظامك المالي. عليك أن تأخذ جدول زمني للذكاء العام الاصطناعي على محمل الجد، وتتخيل كيف سيكون العالم حينها، ثم تبني شيئًا لا يزال مفيدًا عندما يحين ذلك العالم.