أطلقت Tether AI مؤخرًا TurboQuant كبرنامج مفتوح المصدر، مما يوفر أداة تقلل من استهلاك الذاكرة في استنتاج النماذج اللغوية الكبيرة بنسبة تصل إلى خمس مرات. تستهدف هذه التقنية عقدة محددة تُعرف باسم ذاكرة المفتاح-القيمة (KV)، وهي في جوهرها الذاكرة المؤقتة التي تستخدمها نماذج المحولات لتتبع السياق أثناء المحادثة.
ما الذي يفعله TurboQuant فعليًا
الخوارزمية وراء TurboQuant نشأت من أبحاث جوجل، التي نشرت التفاصيل الأولية في 24 مارس 2026. ما فعلته Tether AI هو أخذ ورقة البحث هذه وتحويلها إلى شيء يمكن للمطورين نشره فعليًا في بيئة الإنتاج. تشمل إصدارة Tether خط أنابيب كمي كامل، ومشغلات إطار عمل، ووثائق شاملة.
الكمية هي تقنية تقلل من دقة الأرقام المستخدمة في حسابات الشبكات العصبية. بدلاً من تخزين القيم كأرقام عائمة بطول 16 بت أو 32 بت، تقوم بضغطها إلى تمثيلات بطول 4 بت أو حتى 2 بت. يتعامل TurboQuant مع هذا بشكل خاص لذاكرة KV.
لا يتطلب أي إعادة تدريب أو ضبط دقيق للنماذج. يمكن للمطورين تطبيق TurboQuant على النماذج الحالية وإطارات الاستنتاج الحالية دون البدء من الصفر.
وصل الإصدار كجزء من إصدار QVAC SDK 0.12.0، والذي يتضمن أيضًا قدرات جديدة مثل توليد الفيديو من النص والتحكم في الروبوتات. QVAC هو منصة أوسع تابعة لـ Tether تهدف إلى دعم الذكاء الاصطناعي اللامركزي عبر الأجهزة الاستهلاكية.
لماذا شركة عملة مستقرة تبني بنية تحتية للذكاء الاصطناعي
تقوم تيثر بتوسيعها بنشاط خارج عملتها المستقرة USDT، ويمثل الذكاء الاصطناعي أحد أكبر استثماراتها. وقد وضّح المدير التنفيذي باولو أردوينو جهود الشركة في مجال الذكاء الاصطناعي حول فرضية محددة: أن نماذج اللغة عالية الجودة يجب أن تعمل محليًا على أجهزة المستهلكين مثل الهواتف وأجهزة الكمبيوتر المحمولة، بدلاً من الاعتماد على خدمات السحابة المركزية.
مشكلة الذاكرة هي العقبة الأساسية أمام هذا الرؤية. نموذج يحتاج إلى 16 جيجابايت من الذاكرة فقط لذاكرته KV لن يتناسب مع معظم الأجهزة الاستهلاكية. قللها إلى 3.2 جيجابايت وفجأة تبدأ الحسابات في العمل.
أكد أردوينو أن TurboQuant يقرب الواقع من الذكاء الاصطناعي المحلي الفعال من خلال معالجة قيود الذاكرة التي تواجهها نماذج المحولات على الأجهزة الاستهلاكية.
تُبنى منصة QVAC على عدة تقنيات تكميم سابقة، بما في ذلك PolarQuant وQuantized Johnson-Lindenstrauss. وقد قام فريق الذكاء الاصطناعي في Tether بدمج عدة طرق ضغط معًا، حيث تستهدف كل منها أجزاء مختلفة من مشكلة الكفاءة، ويعتبر TurboQuant الطبقة الأخيرة في هذا التجميع.
ما يعنيه ذلك للمستثمرين
الطبيعة مفتوحة المصدر للإصدار تعني أنه يمكن لأي مطور الحصول على الكود، ودمجه في خط أنابيب الاستنتاج الخاص به، والاستفادة فورًا من وفورات الذاكرة. هذا تحرك استراتيجي لتعزيز النظام البيئي المحيط بـ QVAC وجعل منصة Tether أداة الافتراضية لتطبيقات الذكاء الاصطناعي اللامركزية.
نشرت أبحاث جوجل الخوارزمية الأساسية. لا يوجد ما يمنع جوجل نفسها أو أي مختبر آخر ذو موارد كبيرة من إطلاق تنفيذ إنتاجي خاص بها. إن تضمين ميزات تحويل النص إلى فيديو والتحكم في الروبوتات في نفس تحديث SDK يشير إلى أن الفريق يُجري تحسينات بسرعة.
راقب ما إذا كانت المعايير المستقلة تؤكد صحة مطالبة الضغط 5x عبر هياكل نماذج مختلفة وأطوال سياق، حيث يمكن أن تتدهور تقنيات التكميم في الاستخدام الحقيقي مع محادثات أطول أو مهام استدلال أكثر تعقيدًا.

