المقال | LetterAI
في اليوم السابق لعطلة عيد العمال، أصدر DeepSeek فجأة تقريرًا عن تقنية التعددية المرئية.
قبل أن أفتحه، كان لدي تقدير تقريبي، إنه مجرد معرفة مدى البعد الذي يمكنني رؤيته ومدى وضوح الرؤية.
في النهاية، خلال العام الماضي، كانت نماذج متعددة الوسائط جميعها تتنافس في هذا الاتجاه. تتحدث OpenAI عن التفكير باستخدام الصور، مما يسمح للنموذج بقص وتكبير وتدوير الصور أثناء عملية الاستدلال؛ كما تعمل Gemini وClaude على إيجاد طرق لتمكين النموذج من معالجة مدخلات بصرية أعلى دقة وأكثر تعقيدًا.
الافتراض المشترك هو أن مجرد جعل النموذج يرى التفاصيل بشكل أدق سيؤدي تلقائيًا إلى تعزيز الاستدلال البصري.
لكن عند قراءة تقرير DeepSeek، ستجد أنهم سلكوا طريقًا مختلفًا تمامًا.
لم يركز DeepSeek على "جعل النموذج يرى المزيد من البكسلات"، بل ركزوا على مشكلة أكثر أساسية.
حتى لو كان النموذج قد فهم بوضوح، كيف يمكنك التأكد من أن النموذج يقصد نفس الشيء الذي تقصده أنت أثناء عملية الاستدلال؟
في الواقع، هذا هو الضعف الأقل انتباهًا في الاستدلال متعدد الوسائط.
عندما ينظر البشر إلى الصور، يمكنهم استخدام أصابعهم لتحديد الكائنات. على سبيل المثال: "هذا الشخص هو فلان" أو "ذلك الشخص هو فلان". لكن النموذج كيف يعرف أنك تقصد هذا الكائن بالتحديد؟
لا يمكن للنموذج أن يشير إلا باللغة إلى "الشيء على اليسار" أو "الشيء في الأعلى" أو "هذا الخط". بمجرد أن تصبح الصورة معقدة، يبدأ الإشارة اللغوية في التحول، ويتبع ذلك انهيار الاستدلال.
وهكذا قال DeepSeek: لماذا لا نعطي النموذج "إصبعًا" واحدًا؟
It turns dots and bounding boxes into fundamental units for the model to think with, allowing the model to reason while pointing at objects with this cyber finger.
01 من الرؤية المستمرة إلى الرموز المنفصلة
في هذا التقرير التقني، طرح DeepSeek سؤالًا مثيرًا للاهتمام. فهم يرون أن التحدي الحقيقي للنماذج متعددة الوسائط ليس في رؤية الصور، بل في التوجيه المستقر لنفس الكائن البصري خلال عملية الاستدلال المتسلسل.
على سبيل المثال، تقول لصديقك: "في السوق، الخضار الأطهر تُباع عند عمة تشانغ". لكن في السوق هناك عدد كبير جدًا من الرجال والنساء المسنين، فأيهم هي عمة تشانغ؟
لكن إذا أشرت مباشرة بإصبعك وقلت "هذا هو"، فسيفهم صديقك على الفور.
يُسمّي DeepSeek هذه المسألة "فجوة الاستشهاد" (Reference Gap).
في العام الماضي، كانت جميع النماذج متعددة الوسائط الرائدة تتعامل مع مشكلة "فجوة الإدراك".
إذا وُضِعَت صورة أمامك، و كانت الصورة ضبابية جدًا أو دقتها منخفضة جدًا، فقد لا تتمكن من قراءة النص الصغير أو تفاصيل الأشياء البعيدة فيها. يحدث نفس الشيء مع الذكاء الاصطناعي؛ إذا كانت جودة الصورة المدخلة غير كافية أو طريقة المعالجة غير صحيحة، فسيكون "غير قادر على الرؤية بوضوح"، وهذا ما يُسمى فجوة الإدراك.
تقوم نماذج GPT و Claude و Gemini باستمرار بتحسين الدقة، وتقديم تقنيات مثل قص عالي الدقة، وتقسيم ديناميكي، ومعالجة متعددة المقاييس، بهدف تمكين النموذج من رؤية المزيد من التفاصيل.
هذا الاتجاه له قيمة بالطبع، لكن DeepSeek أشار في التقرير إلى أنه حتى لو رأى النموذج بوضوح تام، فإنه لا يزال يعاني من انهيار منطقي في مهام الاستدلال المكاني المعقدة.
المشكلة تكمن في اللغة الطبيعية نفسها.
في الصورة هناك أكثر من عشرة كلاب، وعندما تقول "الكلب الموجود على اليسار"، لا يستطيع النموذج فهم أي كلب بالضبط تقصد.
هناك شيء أكثر إثارة، إذا طلبت من النموذج عد عدد الكلاب في الصورة، فسيكون من السهل جدًا على النموذج أن يفقد تتبع الكلاب التي عدّها بالفعل والتي لم يعدها بعد أثناء عملية الاستدلال.
كما أشار التقرير إلى حالات متطرفة مثل الملاحة في المتاهة، حيث لا يمكن وصف المسارات غير المنتظمة والعلاقات الطوبولوجية المعقدة بدقة باستخدام اللغة الصرفة.
اللغة، كأداة إشارة، غامضة بطبيعتها في الفضاء البصري المستمر. فهي ممتازة في المفاهيم المجردة والعلاقات السببية، لكنها تواجه قيودًا جوهرية في التعبير عن الموقع المكاني والعلاقات الطوبولوجية.
DeepSeek هو نموذج لغوي عام، فكيف يمكن حل هذا؟
وهكذا ظهرت "الإصبع" المذكورة في بداية المقال.
المفهوم الأساسي الذي طرحوه هو "العناصر البصرية" (Visual Primitives)، أي رفع مُعرّفات المساحة الأساسية في رؤية الحاسوب—المربعات المحيطة (bounding boxes) والنقط (points)—إلى "أصغر وحدات التفكير".
على الرغم من أن النماذج متعددة الوسائط السابقة كانت تستطيع وضع إطارات حول الكائنات، إلا أنها كانت تقدم فقط النتيجة في النهاية لإثبات "لقد وجدت". مثل الامتحان، حيث تقدم فقط الإجابة دون كتابة خطوات الحل.
كما أجرت بعض الدراسات استخدام الذكاء الاصطناعي لرسم إطارات أثناء عملية التفكير، لكن الهدف كان فقط "الرؤية بشكل أكثر دقة"، حيث تكون الإطارات أداة مساعدة فقط. مثل استخدامك ورقة مسودة عند حل مسائل رياضية، فالورقة تساعدك على الحساب بوضوح أكبر، لكنها ليست جزءًا من منهجية الحل.
ما يفعله DeepSeek مختلف تمامًا.
إنهم يدمجون هذه العلامات المكانية مباشرة في عملية الاستدلال الخاصة بالنموذج، مما يجعلها جزءًا عضويًا من الاستدلال. عندما يفكر النموذج، لا يقتصر على وصف اللغة "رأيت كلبًا"، بل يُخرِج أيضًا "رأيت كلبًا، وهو هنا: [[x1,y1,x2,y2]]".
يُطلق على هذه الآلية من قبل DeepSeek اسم "الإشارة أثناء الاستدلال" (point while it reasons).

كل خطوة من خطوات النموذج مُرتبطة بإحداثيات الصورة المحددة.
قدم تقرير التقني مثالًا واحدًا فقط: حيث بدأ النموذج من نقطة البداية، واستكشف، وعاد للخلف، وحاول مرة أخرى، وأخيرًا أنتج سلسلة من المسارات الإحداثية الكاملة، حيث يتوافق كل إحداثي مع نقطة مر بها في المتاهة.
بهذه الطريقة، لن يضيع النموذج أثناء عملية الاستدلال. فلن يُربك نفسه بشأن ما يقوله أو ما يشير إليه. لقد حصل كل كائن بصري على نقطة ربط مكانيّة واضحة، وأصبحت عملية الاستدلال قابلة للتتبع والتحقق.
هذا المسار التقني يشكل مقارنة مثيرة مقارنةً باتجاه OpenAI.
ذكرت OpenAI صراحةً مفهوم "التفكير باستخدام الصور" في الوصف الرسمي لـ o3 وo4-mini، أي أن النموذج يمكنه دمج الصور في سلسلة التفكير، ومعالجتها من خلال قصها أو تكبيرها أو تدويرها. يركز هذا الاتجاه على جعل الصورة نفسها جزءًا من سلسلة التفكير، بحيث يمكن للنموذج إنشاء صور جديدة أو تعديلها أو تنفيذ عمليات عليها أثناء عملية الاستدلال.
يركز مسار OpenAI على القدرات العامة، حيث تعمل الرؤية والرمز والبحث والملفات واستدعاء الأدوات معًا. يمتلك النموذج "منصة بصرية" قوية يمكنها التعامل المرن مع مهام بصرية متنوعة.
مسار DeepSeek أكثر "رمزية" قليلاً. إنه يُدخل الإحداثيات إلى سلسلة التفكير. يقوم النموذج بكتابة إحداثيات مربعات الحدود والنقاط صراحةً في النص الاستنتاجي، ويجعل الكائنات البصرية نقاط مرجعية قابلة لإعادة الاستخدام أثناء الاستنتاج.
هذا يؤدي إلى أن الاستدلال البصري لـ OpenAI يحدث داخليًا، حيث يمكن للمستخدمين رؤية الإجابة النهائية والتفسيرات الضرورية فقط، بينما تظل عملية المعالجة البصرية الوسيطة صندوقًا أسود. أما DeepSeek، فيُظهر عمدًا نقاط المرجع البصرية الوسيطة، ليجعل عملية الاستدلال شفافة تمامًا.
إن القيام بذلك من قبل DeepSeek يُحسّن من سهولة تدريب وفحص وتصنيف عملية الاستدلال. كما يُسهّل تصميم المكافآت على مستوى التنسيق والجودة والمهمة. خاصة في المهام مثل المتاهات وتتبع المسارات، يمكن تقديم ملاحظات أكثر تفصيلاً حول شرعية المسار ودرجة تغطية المسار.
النموذج لم يتعلم فقط إنتاج الإجابات الصحيحة، بل تعلم أيضًا طريقة الاستدلال باستخدام العناصر البصرية.
02 الكفاءة هي الجوهر
يحتوي تقرير DeepSeek على تفصيل مهم جدًا ولكن يُهمل بسهولة، حيث يستخدم نموذجهم عددًا أقل بكثير من الرموز عند معالجة الصور مقارنةً بالنمذجات الرائدة الأخرى.
يحتوي التقرير على مخطط مقارنة يعرض عدد الرموز المستهلكة من قبل نماذج مختلفة عند معالجة صورة بدقة 800×800.
يحتوي Gemini-3-Flash على حوالي 1100، وClaude-Sonnet-4.6 على حوالي 870، وGPT-5.4 على حوالي 740، وQwen3-VL على حوالي 660، وDeepSeek على حوالي 361، مع الاحتفاظ بحوالي 90 إدخالًا فقط في ذاكرة التخزين المؤقت KV.
هذا الفرق ليس بسيطًا. عدد الرموز المستخدمة من قبل DeepSeek هو فقط ثلث عدد رموز Gemini، وعناصر ذاكرة التخزين المؤقت KV هي فقط حوالي واحد من كل عشرة.
كيف يتم تحقيق هذه الكفاءة القصوى؟
استخدم DeepSeek آلية تُسمى "الانتباه المضغوط النادر" (Compressed Sparse Attention, CSA).
يمكنك فهم ذلك على النحو التالي: إذا أردت إظهار صورة عائلية لصديقك، فلن تقول "تبدأ منطقة حمراء من البكسل رقم 237 من اليسار..."، بل ستقول مباشرة "أمي على اليسار وأبي على اليمين".
DeepSeek-ViT أولاً يضغط الصورة إلى عدد أقل من الرموز البصرية، ثم CSA يضغط بشكل إضافي تمثيل هذه الرموز البصرية في ذاكرة التخزين المؤقت KV.
تم استخدام هذه الآلية بالفعل في نموذج DeepSeek-V4-Flash، والآن تم تطبيقها على المتعدد الوسائط البصري.
تتم عملية الضغط على النحو التالي. صورة بحجم 756×756 تحتوي على 571536 بكسل. تُعالج هذه البكسلات أولاً عبر ViT، وتُقسّم بحجم patch قدره 14×14، مما ينتج 2916 patch token. ثم يتم إجراء ضغط مكاني بحجم 3×3، حيث يتم ضغط كل 9 tokens متجاورة على طول بعد القناة إلى token واحد، ليصبح لدينا 324 token بصري.
تُدخل هذه 324 رمزًا إلى نموذج لغوي كبير للتعبئة المسبقة. في النهاية، تقوم آلية CSA بضغط هذه الرموز البصرية في ذاكرة التخزين المؤقت KV بمقدار 4 مرات، مما يُحتفظ فقط بـ 81 عنصرًا.
من 571536 بكسل إلى 81 مدخلًا في ذاكرة التخزين المؤقت KV، بلغ معدل الضغط الكلي 7056 مرة.
غالبًا ما تستخدم الشركات الكبرى في الذكاء الاصطناعي طرقًا قوية لتكديس موارد الحوسبة، بينما يتخذ DeepSeek نهجًا على مستوى نظرية المعلومات، حيث يُبقي فقط على المعلومات الأكثر وضوحًا وسهولة في الفهم.
النتيجة الأكثر مباشرة هي أن سرعة الاستدلال زادت بشكل كبير.
عدد رموز الصورة يؤثر مباشرة على تأخير الاستدلال للنموذج. في عملية التوليد التكراري، يتطلب النموذج عند توليد رمز جديد إجراء حسابات الانتباه على مخزن KV لجميع الرموز السابقة. إذا استهلكت الصورة 1000 رمز، فسيتم إجراء انتباه على هذه الـ 1000 رمز في كل توليد. إذا استهلكت فقط 90 رمزًا، فسيقل حساب التحميل بشكل كبير.
للمشاهدات التي تتطلب استجابة فورية، مثل الرؤية الروبوتية، والقيادة الذاتية، وتحليل الفيديو في الوقت الحقيقي، لعب تحسين سرعة الاستدلال دورًا حاسمًا.
ثم يستهلك أيضًا ذاكرة أقل.
يُعد تخزين KV عائقًا في الذاكرة لاستنتاج النماذج الكبيرة. خاصةً عند معالجة سياقات طويلة أو الاستنتاج على دفعات، فإن تخزين KV يستهلك كمية كبيرة من ذاكرة GPU. قام DeepSeek بضغط تخزين KV للرموز البصرية إلى 90 عنصرًا، مما يعني أنه يمكن معالجة المزيد من الصور أو معالجة محادثات متعددة المراحل أطول على نفس الأجهزة.
هذا مهم جدًا للنشر الفعلي. العديد من شركات النماذج متعددة الوسائط تؤدي أداءً جيدًا في المختبر، لكنها تواجه مشكلات تتعلق بالتكلفة عند النشر الفعلي. كلما زاد عدد الرموز المستهلكة لكل صورة، زادت تكلفة الاستدلال، وقل عدد المستخدمين المتزامنين الذين يمكن دعمهم. ميزة كفاءة DeepSeek تُضخم عند النشر على نطاق واسع.
كما يزيد بشكل غير مباشر من سعة السياق للنموذج.
إذا كانت صورة واحدة تستهلك 1000 رمز، فسيتم وضع أكثر من 100 صور فقط في نافذة سياقية بسعة 128k. وإذا استهلكت الصورة 300 رمز فقط، فيمكن وضع أكثر من 400 صورة. هذا أمر بالغ الأهمية للسيناريوهات التي تتطلب معالجة محادثات متعددة الصور، أو تحليل الفيديوهات الطويلة، أو فهم كميات كبيرة من المستندات.
يمكن لنموذج DeepSeek معالجة عدد أكبر من الصور في محادثة واحدة، ويمكنه مقارنة وتحليل عشرات أو حتى مئات الصور، كما يمكنه تتبع التغيرات الطويلة الأمد داخل الفيديوهات.
الأمر الأكثر أهمية هو تكلفة التدريب.
على الرغم من أن التقرير يركز بشكل رئيسي على كفاءة الاستنتاج، إلا أن آلية الضغط هذه فعالة أيضًا في مرحلة التدريب. عدد أقل من الرموز البصرية يعني رسم حسابي أصغر، وسرعة تدريب أسرع، ومتطلبات أجهزة أقل.
يُعرف DeepSeek دائمًا بـ"تحقيق نتائج أفضل باستخدام موارد أقل". من تدريب التعلم المعزز في R1، إلى بنية MoE في V4، وحتى التعددية المرئية الحالية، يمتد هذا الفلسفة التي تُعطي الأولوية للكفاءة عبر جميع المراحل.
لكن هناك مشكلة رئيسية هنا. هل يسبب الضغط فقدان المعلومات؟
لا تنكر DeepSeek أن الضغط يؤدي إلى فقدان المعلومات. إن ادّعاءها هو أن التمثيل المضغوط لا يزال فعّالًا بما يكفي لهذه المجموعة من مهام الاستدلال المكاني والعد.
كل خطوة من الضغط تحافظ على المعلومات الأكثر أهمية للاستدلال، وتتخلص من التكرار والضوضاء.
في الواقع، آلية العناصر البصرية لـ DeepSeek المذكورة سابقًا هي أيضًا نوع من ضغط المعلومات. يمكن تحديد موضع كائن بدقة باستخدام أربعة أرقام فقط لصندوق الحدود، ويمكن وضع علامة على نقطة باستخدام رقمين فقط. تحمل هذه الرموز المنفصلة كثافة معلومات أعلى بكثير من البكسلات الأصلية.
من نتائج التجربة، لم تُضر هذه الضغطة بالأداء، بل ساهمت في تحسينه في بعض المهام.
هذا يوضح أنه بالنسبة للعديد من مهام الاستدلال البصري، فإن العقبة لا تكمن في عدم وضوح الرؤية، بل في عدم العثور على طريقة تمثيل مناسبة.
هذه الميزة الكفاءة تثبت أيضًا أن الذكاء متعدد الوسائط لا يحتاج بالضرورة إلى نماذج أكبر، أو قوة حوسبة أكثر، أو تكاليف أعلى.
منذ لحظة ولادة DeepSeek، كانت هناك خيط خفي دائمًا لهذه الشركة: "الذكاء الحقيقي لا يكمن في قوة الحوسبة، بل في فهم جوهر المشكلة".
عندما تفهم حقًا ما الذي يتطلبه الاستدلال البصري، فلن تحتاج إلى هذا العدد الكبير من الرموز. عندما تجد الطريقة المناسبة للتمثيل، فلن تحتاج إلى نموذج كبير جدًا.
من هذا المنظور، ليست الكفاءة القصوى لـ DeepSeek هدفًا في حد ذاتها، بل نتيجة ثانوية. الهدف الحقيقي هو تحديد النموذج الصحيح للتفكير البصري. الكفاءة تُثبت فقط أن هذا النموذج صحيح.
03 الأمور غير المكتملة
في قسم قيود التقرير، ذكر DeepSeek بصراحة عدة مشكلات تواجه الأسلوب الحالي. هذه المشكلات ليست أخطاء صغيرة من الناحية التقنية، بل تشير إلى المرحلة التالية من الاستدلال البصري.
السؤال الأول هو الاعتماد على الكلمات المحفزة.
أوضح التقرير أن القدرة الحالية على "التفكير باستخدام العناصر البصرية" تتطلب كلمات تحفيز صريحة لتفعيلها. أي أن النموذج لا يزال غير قادر على اتخاذ قرار طبيعي وذاتي بـ"متى يجب رسم الإطار أو وضع النقاط".
هذا يعني أن النموذج لم يتعلم بعد كيفية التحقق من متى يجب استخدام العناصر البصرية ومتى يكفي استخدام اللغة.
في الحالة المثالية، يجب أن يكون النموذج قادرًا على اتخاذ قرار ذاتي بناءً على طبيعة المهمة. ولكن عندما يسأل المستخدم "كم عدد الكلاب في الصورة؟" ، يجب أن يتحول النموذج تلقائيًا إلى وضع العناصر البصرية، مستخدمًا مربعات الحدود لمساعدة العد.
من الناحية التقنية، يتطلب هذا إنشاء طبقة ميتا-إدراكية داخل النموذج. يمكن لهذه الطبقة تقييم تعقيد المهمة الحالية، وتحديد ما إذا كان الاستدلال اللغوي البحت كافيًا، واتخاذ قرار بشأن ما إذا كان يجب استدعاء العناصر البصرية.
لا يمتلك DeepSeek حاليًا هذا الطبقة الميتا-إدراكية، لكنهم حددوا الاتجاه بوضوح. قد تمكن الإصدارات المستقبلية النموذج من تعلم اتخاذ قرارات مستقلة بشأن استراتيجيات الاستدلال، بدلاً من الاعتماد على محفزات خارجية.
السؤال الثاني هو قيد الدقة.
أشار التقرير إلى أن النموذج لا يزال غير جيد في الأداء في السيناريوهات الدقيقة بسبب قيود دقة الإدخال، وأحيانًا تكون العناصر البصرية الناتجة غير دقيقة بما يكفي.
هذه المشكلة مرتبطة باستراتيجية DeepSeek التي تُعطي الأولوية للكفاءة. لضمان التحكم في عدد الرموز، قاموا بتحديد نطاق رموز الرؤية بين 81 و384. يتم تغيير حجم الصور التي تتجاوز هذا النطاق.
هذا التصميم منطقي في معظم السيناريوهات، لكنه يواجه حدودًا في بعض المهام التي تتطلب دقة عالية جدًا. على سبيل المثال، يتطلب تحليل الصور الطبية التعرف على الآفات الصغيرة، ويتطلب فحص الجودة الصناعية اكتشاف العيوب الدقيقة، وهذه السيناريوهات تتطلب دقة عالية.
ذكر DeepSeek في التقرير أن هذه المشكلة يمكن حلها من خلال دمج الأساليب عالية الدقة الحالية. بمعنى آخر، إطار عمل العناصر البصرية الخاص بهم وطرق القص عالية الدقة التقليدية ليست متعارضة، بل مكملة لبعضها البعض.
أعتقد أن DeepSeek يمكنها تقديم حل مختلط.
بشكل محدد، بالنسبة لمعظم المهام العادية، يتم استخدام تمثيلات بصرية مضغوطة واستدلال مبني على العناصر البصرية للحفاظ على كفاءة عالية.而对于需要细粒度分析的局部区域,动态调用高分辨率裁剪,提取更详细的视觉信息。这样既保持了整体效率,又满足了局部精度需求。
المفتاح في هذا الحل المختلط هو جعل النموذج يتعلم تحديد المناطق التي تحتاج إلى معالجة بدقة عالية. وبالتالي، فإننا نعود مرة أخرى إلى مشكلة المعرفة الذاتية التي ذكرناها سابقًا.
السؤال الثالث هو التعميم عبر السيناريوهات.
أشار التقرير إلى أن استخدام النقاط كعناصر بصرية لحل مشكلات الاستدلال الطوبولوجي المعقد لا يزال صعبًا، وقدرة النموذج على التعميم عبر السيناريوهات محدودة.
هذه المشكلة تظهر بوضوح في مهام التنقل في المتاهة وتتبع المسارات. على الرغم من أن DeepSeek حقق دقة بنسبة 66.9% و56.7% على مجموعة الاختبار التي أنشأها بنفسه، مما يفوق النماذج الأخرى، إلا أن هذه الأرقام نفسها لا تزال غير كافية.
الأهم من ذلك، أن هذه المهام تم تدريبها واختبارها على بيانات مُولَّدة اصطناعيًا. تم توليد المتاهات باستخدام الخوارزميات، كما تم رسم المنحنيات الخاصة بتتبع المسارات باستخدام البرمجة. عندما يواجه النموذج مشكلات في الاستدلال الطوبولوجي في العالم الحقيقي، مثل تخطيط المسارات على خرائط حقيقية أو تتبع العلاقات في رسومات أنابيب معقدة، قد ينخفض أداؤه.
تتمثل طريقة DeepSeek في تحسين القدرة على التعميم من خلال استخدام كميات كبيرة ومتعددة التنوع من البيانات. لقد قاموا بجمع 97,984 مصدرًا للبيانات، وبعد تصفية صارمة، احتفظوا بـ 31,701 مصدرًا، وحصلوا في النهاية على أكثر من 40 مليون عينة. كما قاموا بتصميم هياكل توبولوجية وأساليب بصرية ومستويات صعوبة متنوعة لمهمات المتاهة وتتبع المسارات، في محاولة لتغطية أكبر قدر ممكن من التغيرات.
لكن تنوع البيانات هو فقط جزء من قدرة التعميم. هل فهم النموذج حقًا جوهر الاستدلال الطوبولوجي؟ أم أنه فقط حفظ الأنماط من بيانات التدريب؟
بالإضافة إلى ذلك، فإن العناصر البصرية لـ DeepSeek هي نظام تمثيل جديد يتطلب تنسيقات بيانات مخصصة وعمليات تدريب وطرق تقييم. وهذا لا يتوافق تمامًا مع البيئة متعددة الوسائط الحالية.
تم تصميم معظم مجموعات البيانات والمعايير التقييمية متعددة الوسائط على أساس نموذج "صورة + نص" التقليدي، دون أخذ العناصر البصرية في الاعتبار. إذا أردت تقييم نماذج DeepSeek على هذه المعايير، فستحتاج إما إلى تعطيل وظيفة العناصر البصرية، أو إعادة تصميم طرق التقييم.
يحتاج الباحثون الآخرون الذين يرغبون في إعادة إنتاج أو تحسين هذا العمل إلى إعادة بناء كامل عملية البيانات والتدريب، مما يمثل عائقًا عاليًا.
يمكن لـ DeepSeek أن تذكر هذه القضايا في التقرير، مما يدل على وعيها الكامل بعملها.
قد تكون هذه أكثر قيمة من تقديم إجابة مثالية. لأن ما يدفع التقدم الاجتماعي في الواقع غالبًا ليس الإجابات، بل الأسئلة.
