Elorian AI تجمع 55 مليون دولار لتعزيز الاستدلال البصري للذكاء العام الاصطناعي في العالم المادي

المقال | Alpha公社

قد تفوق قدرات النماذج الكبيرة للذكاء الاصطناعي في بعض الجوانب قدرات الأشخاص العاديين، مثل البرمجة والرياضيات. وفقًا للأخبار، فقد حققت Anthropic تقريبًا 100٪ من البرمجة بواسطة الذكاء الاصطناعي داخلية، بينما أتمّ Gemini Deep Think من Google 5 من أصل 6 أسئلة في IMO 2025، بمستوى ميدالية ذهبية.

لكن من حيث الاستدلال البصري، لم تحقق حتى Gemini 3 Pro، الذي يمتلك تقدماً رائداً، سوى مستوى طفل يبلغ من العمر 3 سنوات في معيار BabyVision الذي يقيس القدرات الأساسية للاستدلال البصري.

لماذا تكون النماذج الكبيرة قوية في البرمجة والرياضيات لكنها ضعيفة في الاستدلال البصري؟ هذا لأن "طريقة تفكيرها" تواجه قيودًا؛ فنماذج اللغة والصورة (VLM) تحتاج أولاً إلى تحويل المدخلات البصرية إلى نص، ثم إجراء استدلال قائم على النص، لكن العديد من المهام البصرية لا يمكن وصفها بدقة باستخدام الكلمات، مما يؤدي إلى ضعف قدرة النموذج على الاستدلال البصري.

أندرو داي، الذي عمل لمدة 14 عامًا في Google DeepMind، بالتعاون مع يينفيي يانغ، خبير الذكاء الاصطناعي البارز في Apple، أسسا شركة تُدعى Elorian AI، وهدفهما هو رفع قدرة النماذج على الاستدلال البصري من "مستوى الطفل" إلى "مستوى البالغ"، وتمكين النماذج من التفكير الأصيل في "الفضاء البصري" بشكل حقيقي، بهدف التأثير على الذكاء العام الاصطناعي في العالم المادي.

حصلت Elorian AI على تمويل مبكر بقيمة 55 مليون دولار بقيادة مشتركة من Striker Venture Partners وMenlo Ventures وAltimeter، مع مشاركة 49 Palms وعلماء ذكاء اصطناعي رائدين بمن فيهم Jeff Dean.

رائد النماذج متعددة الوسائط، يرغب في منح النماذج البصرية القدرة على الاستدلال

أندرو داي، وهو صيني، حاصل على بكالوريوس في علوم الحاسوب من كامبريدج ودكتوراه في التعلم الآلي من إدنبرة، قام بالتدريب في جوجل أثناء دراسته للدكتوراه، وانضم إلى جوجل في عام 2012 وظل هناك لمدة 14 عامًا حتى بدأ مشروعه الخاص.

Yinfei Yang
صورة من: LinkedIn لـ Andrew Dai

بعد انضمامه إلى جوجل بفترة قصيرة، كتب مع كواك في. لي ورقة بحثية أولى حول التدريب المسبق لنماذج اللغة والضبط الخاضع للإشراف بعنوان "Semi-supervised Sequence Learning". وقد وضعت هذه الورقة الأسس لولادة GPT. وورقته البحثية الأخرى الأساسية هي "Glam: Efficient scaling of language models with mixture-of-experts"، التي فتحت الطريق أمام بنية MoE السائدة اليوم.

ينفي يانغ صورة من: Google

خلال فترة عمله في Google، شارك بعمق في تدريب معظم النماذج الكبيرة، من Palm إلى Gemini 1.5 وGemini 2.5. وبتوجيه من جيف دين، بدأ في عام 2023 في قيادة قسم بيانات Gemini (بما في ذلك البيانات الاصطناعية)، وتوسّع فريقه لاحقًا ليصل إلى مئات الأشخاص.

صورة من LinkedIn لـ Yinfei Yang

الشريك في ريادة الأعمال مع أندرو داي هو يينفيي يانغ، الذي عمل لمدة أربع سنوات في Google Research، مركّزًا على تعلم التمثيلات متعددة الوسائط، ثم انضم إلى آبل للإشراف على تطوير نماذج متعددة الوسائط.

Yinfei Yang مصدر الصورة: arxiv

أدى بحثه البارز "Scaling up visual and vision-language representation learning with noisy text supervision" إلى دفع تطور تعلم التمثيلات متعددة الوسائط.

الشريك المؤسس لـ Elorian AI هو أيضًا سيث نيل، الذي كان سابقًا أستاذًا مساعدًا في هارفارد، وخبير في البيانات والذكاء الاصطناعي.

لماذا نناقش الأوراق البحثية الرائدة التي كتبها المؤسسان المشتركان لـ Elorian AI؟ لأن ما يخططون له ليس تحسينًا على مستوى الهندسة، بل تحديث للنموذج من الأساس، لنقل الذكاء الاصطناعي من فهم ذكي قائم على النصوص إلى فهم ذكي قائم على الصور.

حاليًا، على الرغم من أداء نماذج الذكاء الاصطناعي الممتاز في المهام القائمة على النص، إلا أن حتى أكثر نماذج متعددة الوسائط المتقدمة تقدمًا لا تزال تواجه صعوبات في مهام التزام البصري الأساسي (Visual grounding).

على سبيل المثال، كيف يمكن تثبيت قطعة معينة بدقة تامة داخل جهاز ميكانيكي معين لجعله يعمل بدقة وكفاءة أعلى؟ هذه المهام الفيزيائية المكانية سهلة بالنسبة للطلاب في المرحلة الابتدائية، لكنها صعبة جدًا للنماذج الكبيرة متعددة الوسائط الحالية.

لا يزال يتعين البحث عن أدلة في علم الأحياء، ففي الدماغ البشري، يُعدّ البصر الأساس الداعم لعمليات التفكير العديدة، وقد استخدم البشر قدرتهم على التفكير البصري والمكاني لأطول بكثير من استخدامهم للمنطق اللغوي.

على سبيل المثال، لتعليم شخص آخر كيفية اجتياز متاهة، فإن وصفها بالكلمات قد يُربك الشخص، لكن رسم مخطط مبدئي يمكن أن يُفهمه فورًا.

على سبيل المثال، حتى الطائر، الذي لا يمتلك لغة، يستطيع التعرف على السمات الجغرافية واستنتاجها من خلال الرؤية، مما يمكنه من الهجرة عبر مسافات عالمية. هذا إشارة قوية تشير إلى أن الرؤية هي على الأرجح الاتجاه الصحيح لتعزيز قدرات الاستدلال لدى الآلات.

فتخيل أنه إذا تم، منذ البداية التي بُني فيها النموذج، محاولة غرس هذا الغريزة البصرية البيولوجية في جينات الذكاء الاصطناعي، وبناء نموذج متعدد الوسائط أصلي قادر على "فهم ومعالجة النصوص والصور والفيديو والصوت في آنٍ واحد"، فسيكتسب النموذج قدرة على الفهم البصري. ويهدف أندرو داي وفريقه إلى بناء "مُشَعِرٍ" مولود، يعلّم الآلات ليس فقط "رؤية" العالم، بل أيضًا "فهم" العالم.

في رأي أندرو داي والفريق، فإن الفهم العميق للعالم "الفيزيائي الحقيقي" هو المفتاح الأساسي لتحقيق قفزة في الذكاء الآلي من الجيل التالي، والوصول في النهاية إلى "الذكاء الاصطناعي العام البصري (Visual AGI)".

الـ VLM ذو الاستنتاج المتأخر ليس المسار الصحيح نحو الاستنتاج البصري

لم يكن هناك نقص في الفرق التي حاولت القيام بهذا الأمر من قبل؛ ففي الواقع، كان أندرو داي سابقًا في فريق Gemini، وهو فريق رائد عالميًا في مجال التعددية النمطية. لكن النماذج التقليدية المتعددة النمطية لا تزال تعتمد بشكل رئيسي على نماذج الرؤية واللغة (VLM)، ويعتمد منطقها على نهج "خطوتين": أولاً، تحويل المدخلات البصرية إلى نص، ثم إجراء استدلال قائم على النص (أحيانًا مع دعم خارجي باستخدام أدوات خارجية).

ومع ذلك، فإن الاستدلال المتأخر له قيود جوهرية، فمن ناحية يسهل حدوث وهوم النموذج، ومن ناحية أخرى، لا يمكن وصف العديد من مهام الرؤية بدقة باستخدام النص.

بالإضافة إلى ذلك، فإن نماذج التوليد البصري مثل NanoBanana تتمتع بقدرة ممتازة على التوليد متعدد الوسائط، لكن قدرة التوليد لا تساوي قدرة الاستدلال؛ فـ"التفكير" الذي تقوم به قبل التوليد يعتمد أساسًا على نماذج اللغة، وليس على قدرة استدلال أصلية.

لتطوير نماذج قادرة على فهم عميق لتعقيدات الفضاء والهيكل والعلاقات في العالم البصري، لا بد من ابتكار جذري في التقنيات الأساسية.

إذًا، كيف يمكن الابتكار؟ لقد تخصص مؤسسو Elorian AI لسنوات عديدة في مجال متعدد الوسائط، ونهجهم هو: دمج تدريب متعدد الوسائط مع بنية جديدة مصممة خصيصًا للاستدلال متعدد الوسائط. فهم يتخلون عن الممارسة التقليدية التي ترى الصور كمدخلات ثابتة، وبدلاً من ذلك يدرّبون النموذج على التفاعل المباشر مع التمثيلات البصرية والتحكم فيها لتحليل الهياكل والعلاقات والقيود الفيزيائية بشكل ذاتي.

Of course, another core element is data, which determines the performance and success or failure of these models.

أندرو داي أشار إلى أنهم يقدّرون جودة البيانات ونسب مزج البيانات ومصادر البيانات وتنوعها، وقد أحدثوا ثورة في طبقة البيانات، وأعادوا هندسة سلسلة الاستدلال في الفضاء البصري، واستخدموا بيانات مُولَّدة اصطناعيًا على نطاق واسع وعميق.

ستؤدي هذه الجهود مجتمعةً إلى تطوير أنظمة ذكاء اصطناعي جديدة قادرة على تجاوز "الإدراك" البصري البسيط والانتقال إلى "الاستدلال" البصري المتقدم.

يمكن أن يكون هذا النظام الذكي نموذجًا أساسيًا للتفكير البصري: أي بناء نموذج عالي العامية، لكنه يُظهر أداءً ممتازًا جدًا في مجموعة محددة من القدرات، وهي التفكير البصري.

بما أنه نموذج أساسي عام، يجب أن تكون مجالات تطبيقه واسعة.

أولاً، يمكن أن يكون بمثابة المركز العصبي الأساسي للنظام في سباق الروبوتات، مما يمنحه القدرة على العمل بشكل مستقل في بيئات متنوعة وغير مألوفة.

على سبيل المثال، في سباق الروبوتات، يتم إرسال روبوت للتعامل مع عطل أمني مفاجئ في بيئة خطرة. وهذا يتطلب من الروبوت اتخاذ قرارات فورية دقيقة وسريعة. إذا كان الروبوت يفتقر إلى نموذج أساسي للتفكير العميق، فلن يجرؤ الناس على السماح له بالضغط عشوائيًا على الأزرار أو تشغيل المقابض. ولكن إذا كان قادرًا على التفكير بقدرة استدلالية عالية، فقد يفكر: "ربما يجب أن أسحب هذا المقبض أولاً قبل تشغيل هذا اللوحة، لتفعيل آلية الحماية الأمنية."

بالإضافة إلى ذلك، في مجال إدارة الكوارث، يمكن للنماذج التي تمتلك القدرة على الاستدلال البصري مراقبة ومنع حرائق الغابات من خلال تحليل صور الأقمار الصناعية؛ وفي مجال الهندسة، يمكنها فهم دقيق للمخططات البصرية المعقدة ورسومات المبادئ النظامية، وتكمن أهمية هذه القدرة في أن قوانين عمل العالم المادي تختلف جوهريًا عن عالم الكود النقي، فلا يمكنك تصميم جناح طائرة فقط من خلال كتابة بضعة أسطر من الكود النقي.

ومع ذلك، فإن نماذج Elorian AI وقدراتها حاليًا لا تزال على الورق فقط، وهم يخططون لإطلاق نموذج في عام 2026 يحقق مستوى SOTA في الاستدلال البصري، حيث يمكن حينها تقييم ما إذا كانت نتائجهم تتماشى مع المزاعم.

عندما يمتلك الذكاء الاصطناعي حقًا قدرة "الاستدلال البصري"، كيف سيغير العالم المادي؟

لتمكين الذكاء الاصطناعي من فهم العالم المادي والتأثير فيه، تطورت التكنولوجيا عدة مرات.

من التعرف على الصور في عصر CV التقليدي، إلى نماذج توليد الصور/النماذج متعددة الوسائط في الذكاء الاصطناعي التوليدي، ثم إلى نماذج العالم، فإن فهم العالم المادي يزداد باستمرار.

ومن المحتمل أن تتطور نماذج الأساس للاستدلال البصري خطوة أخرى، لأن القدرة على تحقيق الاستدلال البصري ستسمح للذكاء الاصطناعي بفهم أعمق للعالم المادي، وبالتالي تحقيق مستوى أعلى من الذكاء الآلي.

تخيل أن نماذج تمتلك فهمًا عميقًا وعمليات دقيقة تُزوّد قطاع الذكاء الجسدي وقطاع الأجهزة الذكية بالطاقة، مما يوسع بشكل كبير نطاق تطبيقاتهما. على سبيل المثال، يمكن للروبوتات إجراء إنتاج صناعي أكثر موثوقية، أو في مجال الرعاية الطبية؛ كما يمكن للأجهزة الذكية، خاصة الأجهزة القابلة للارتداء، أن تصبح مساعدين شخصيين أكثر ذكاءً.

لكن في قلب هذه التقنيات، لا تزال البيانات. كما أشار أندرو داي سابقًا، فإن جودة البيانات، ونسبة مزج البيانات، ومصادر البيانات، وتنوعها، تحدد أداء النموذج.

في مجال الذكاء الاصطناعي الفيزيائي، تتمتع الشركات الصينية، سواء على مستوى النماذج أو البيانات، بقرب أكبر من القادة العالميين مقارنةً بنماذج النص الكبيرة. إذا تمكنت من الاستفادة من ميزات البيانات وتنوع تطبيقاتها لتسريع وتيرة التكرار، فستكون هناك فرص أكبر للوصول إلى مستوى رائد سواء في الذكاء المتجسد أو الأجهزة القائمة على الذكاء الاصطناعي، سواء في الصناعة أو الرعاية الصحية أو المنازل، كما ستكون هناك فرص لظهور شركات عالمية.