بعد دخول نماذج الذكاء الاصطناعي مرحلة التطبيق الواسع النطاق، استمرت زيادة الطلب على قوة الحوسبة للاستدلال. مقارنة بمرحلة التدريب، فإن متطلبات بنية الرقاقة، والتأخير، وتكاليف النشر عند إنشاء إجابات مباشرة من النموذج أو تنفيذ مهام الوكلاء تختلف. وفقًا لتقرير TechCrunch، تحاول شركة السحابة للاستدلال General Compute الدخول إلى هذا القطاع من خلال حل نشر أخف.
أكمل General Compute مؤخرًا جولة تمويل بذري بقيمة 15 مليون دولار أمريكي، بقيمة تقييم بعد الاستثمار قدرها 60 مليون دولار أمريكي. قادت هذه الجولة FUSE VC، مع مشاركة Carya Venture Partners وVillage Global Ventures. وتُعرّف الشركة نفسها بأنها "neocloud للاستدلال"، وتُؤجر قدرات المعالجة اللازمة لتشغيل النماذج في مرحلة الاستدلال.
الرهان على شريحة الاستدلال SambaNova
في سوق البنية التحتية للذكاء الاصطناعي، لا تزال وحدات معالجة الرسومات (GPU) الخيار السائد، لكن عددًا متزايدًا من الشركات يبدأ في المراهنة على شرائح مخصصة لسيناريوهات الاستنتاج. أشار التقرير إلى أن General Compute اختارت التعاون مع SambaNova بدلاً من السعي المباشر وراء موارد GPU الأكثر تشددًا.
سامبا نوفا هي شركة رقائق مدعومة من إنتل، وتتركز منذ فترة طويلة على حسابات الاستنتاج. وفقًا للشريك المؤسس لـ General Compute، فإن الرقاقة الجديدة التي ستطلقها سامبا نوفا هذا العام ستقدم قدرة تخزين سياقي أعلى أثناء الاستنتاج، وهيكل أكثر مرونة. ووفقًا للشركة، يمكن للرقاقة الجديدة معالجة ما بين 600 إلى 700 رمز في الثانية، بينما تبلغ الرقائق المعالجة للرسومات حوالي 250 رمزًا في الثانية.
General Compute أعلنت أنها طلبت شرائح SambaNova SN50 بقيمة 300 مليون دولار أمريكي، وستصبح أول شركة neocloud تُثبّت هذه الشرائح.
يمكن نشرها مباشرة في المراكز الحالية
إلى جانب إمداد الرقائق، فإن أحد التحديات الأخرى لتوسيع قوة الحوسبة الخاصة بالذكاء الاصطناعي هي تنفيذ مراكز البيانات. تتطلب العديد من رقائق الذكاء الاصطناعي عالية الأداء تبريدًا سائلًا وتكوين طاقة أعلى، مما يزيد من تكاليف تحسين مراكز البيانات ويطيل دورة الإطلاق.
الحل الذي قدمته General Compute هو استخدام شرائح استنتاج مبردة بالهواء وذات استهلاك طاقة أقل. وهذا يعني أنه يمكن تثبيت الأجهزة مباشرة في مراكز البيانات الحالية دون الحاجة إلى ترقية كبيرة للبنية التحتية أولاً. بالنسبة لشركة سحابية جديدة في مجال الاستنتاج، يعني هذا تكوينًا أسرع للقوة الحاسوبية القابلة للإيجار.
الشركة حاليًا تُقدّم شراكات تخزين، حيث تُدخل معداتها الخاصة إلى مرافق طرف ثالث. تشمل شركاء التعاون ليس فقط مشغلي مراكز البيانات التقليدية، بل أيضًا شركات تعدين العملات المشفرة التي تسعى للتحول. أشار التقرير إلى أنه في فترات معينة، كانت تكلفة إنتاج البيتكوين أعلى من سعر السوق، مما دفع بعض مناجم التعدين إلى البحث عن استخدامات جديدة للبنية التحتية.
المنافسة في الحوسبة السحابية تتحول نحو السرعة والتكلفة
تم إطلاق خدمة الحوسبة العامة الأسبوع الماضي، وادّعت أنها تتفوق في السرعة عند تشغيل النموذج الكبير المفتوح المصدر MiniMax 2.7. تهدف الشركة إلى تقليل مهام وكيل البرمجة التي كانت تستغرق ساعة واحدة إلى 5 إلى 10 دقائق، وكذلك خفض تكاليف الاستدلال في السيناريوهات الزمنية الحقيقية مثل وكالات الصوت للخدمة العملاء.
يعتقد المستثمر جو هاسلمان أن هذه الشراكة تشبه التوسع السابق لـ CoreWeave في قدرات الحوسبة من خلال Nvidia. بالنسبة لـ SambaNova، فإن General Compute هو قناة مهمة لدخول شرائحها إلى سيناريوهات نمو عالية.
تشير التقارير إلى أن سحابة الاستدلال تراهن جوهريًا على سوق يضم نماذج ووكلاء متعددين. إذا لم يهيمن مزود نموذج واحد على المدى الطويل في المستقبل، فستصبح سرعة الاستدلال وتكلفة الوحدة مؤشرات تنافسية أكثر مباشرة. ويعكس التمويل الدائري B بقيمة 113 مليون دولار الذي أكمله OpenRouter مؤخرًا ارتفاع الطلب على دمج النماذج المتعددة وتحسين تكلفة الـ token.

