إليفن لابس تُطلق مفتوحة المصدر مهارة محرك الصوت للتكامل الصوتي في الوقت الفعلي

ME AI رسالة، وفقًا لمراقبة Beating، أطلقت شركة ElevenLabs النادرة في مجال الذكاء الاصطناعي الصوتي رسميًا مكون المحادثة الصوتية في الوقت الفعلي Speech Engine Skill. يتوافق Speech Engine Skill مع المعيار المفتوح Agent Skills، بهدف تمكين الوكلاء الذكيين والتطبيقات القائمة على نماذج اللغة الكبيرة من دمج قدرات تفاعل صوتي عالية الدقة ومنخفضة التأخير بسرعة. يمكن للمطورين إضافة محرك الصوت إلى بيئة التشغيل الخاصة بمشروعهم ببساطة عن طريق تشغيل الأمر npx skills add elevenlabs/skills، دون الحاجة إلى الاتصال بعدة واجهات برمجة تطبيقات أو بناء آلات حالة معقدة. يُبنى Speech Engine Skill على اتصالات WebSocket عالية الأداء، حيث يمثل كل اتصال جلسة مكالمة واحدة. عندما يتحدث المستخدم، تقوم المتصفح بتسجيل الصوت ونقله بشكل تدفقي إلى ElevenLabs، التي تقوم فورًا بتحويل الصوت إلى نص ودفع النص إلى خادم المطور. يقوم الخادم بإنشاء استجابة نصية تدفقية باستخدام نموذج لغة كبير، ثم يُرسل الاستجابة مرة أخرى باستخدام دالة sendResponse() أو send_response() (التي تدعم السلاسل أو المكررات غير المتزامنة)، وبعد ذلك تقوم ElevenLabs بتحويلها إلى صوت مُستَنتج منخفض التأخير وتشغيله في المتصفح. يدير SDK في الخلفية توجيه الشبكة، والتحقق من توقيع الطلبات، واختبارات النبض، ودورة حياة الجلسة، ويدعم بشكل أصلي المقاطعة والتناوب في المحادثة. لتبسيط تطوير الواجهة الأمامية، أطلقت ElevenLabs أيضًا مكتبتين عميلتين: @elevenlabs/react و @elevenlabs/client. يمكن لصفحة الواجهة الأمامية تشغيل مساعد صوتي رقمي مقاوم للضوضاء والمقاطعات باستخدام كمية ضئيلة جدًا من التعليمات البرمجية، مع دعم شهادات جلسة آمنة تصدرها الخادم. في التوزيع الفعلي، تنصح ElevenLabs بمعالجة نصوص التعرف الصوتي كمدخلات غير موثوقة، وتكوين حواجز أمان ثابتة أو قائمة بيضاء للنية على الخادم لتجنب ربط نصوص التحويل الصوتي الخام مباشرة بأوامر امتيازات النموذج أو استدعاء أدوات حساسة. (المصدر: BlockBeats)