إليفن لابس تُطلق مفتوحة المصدر مهارة محرك الصوت للتكامل الصوتي في الوقت الفعلي

iconKuCoinFlash
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
أطلقت ElevenLabs مهارة محرك الكلام كمصدر مفتوح، مما يمكّن التكامل الفوري للصوت مع وكلاء الذكاء الاصطناعي والنماذج اللغوية الكبيرة. يسمح هذا الأداة للمطورين بإضافة قدرات صوتية عبر أمر واحد، مما يبسط نشرها. تستخدم اتصالات WebSocket لإنتاج صوتي منخفض التأخير وتوليد الردود. تبسّط مكتبتا @elevenlabs/react و @elevenlabs/client العمل في الواجهة الأمامية. يتوافق هذا الإجراء مع اتجاهات الأخبار المتزايدة حول الذكاء الاصطناعي + العملات المشفرة وأخبار الأصول الواقعية (RWA).
ME AI رسالة، وفقًا لمراقبة Beating، أطلقت شركة ElevenLabs النادرة في مجال الذكاء الاصطناعي الصوتي رسميًا مكون المحادثة الصوتية في الوقت الفعلي Speech Engine Skill. يتوافق Speech Engine Skill مع المعيار المفتوح Agent Skills، بهدف تمكين الوكلاء الذكيين والتطبيقات القائمة على نماذج اللغة الكبيرة من دمج قدرات تفاعل صوتي عالية الدقة ومنخفضة التأخير بسرعة. يمكن للمطورين إضافة محرك الصوت إلى بيئة التشغيل الخاصة بمشروعهم ببساطة عن طريق تشغيل الأمر npx skills add elevenlabs/skills، دون الحاجة إلى الاتصال بعدة واجهات برمجة تطبيقات أو بناء آلات حالة معقدة. يُبنى Speech Engine Skill على اتصالات WebSocket عالية الأداء، حيث يمثل كل اتصال جلسة مكالمة واحدة. عندما يتحدث المستخدم، تقوم المتصفح بتسجيل الصوت ونقله بشكل تدفقي إلى ElevenLabs، التي تقوم فورًا بتحويل الصوت إلى نص ودفع النص إلى خادم المطور. يقوم الخادم بإنشاء استجابة نصية تدفقية باستخدام نموذج لغة كبير، ثم يُرسل الاستجابة مرة أخرى باستخدام دالة sendResponse() أو send_response() (التي تدعم السلاسل أو المكررات غير المتزامنة)، وبعد ذلك تقوم ElevenLabs بتحويلها إلى صوت مُستَنتج منخفض التأخير وتشغيله في المتصفح. يدير SDK في الخلفية توجيه الشبكة، والتحقق من توقيع الطلبات، واختبارات النبض، ودورة حياة الجلسة، ويدعم بشكل أصلي المقاطعة والتناوب في المحادثة. لتبسيط تطوير الواجهة الأمامية، أطلقت ElevenLabs أيضًا مكتبتين عميلتين: @elevenlabs/react و @elevenlabs/client. يمكن لصفحة الواجهة الأمامية تشغيل مساعد صوتي رقمي مقاوم للضوضاء والمقاطعات باستخدام كمية ضئيلة جدًا من التعليمات البرمجية، مع دعم شهادات جلسة آمنة تصدرها الخادم. في التوزيع الفعلي، تنصح ElevenLabs بمعالجة نصوص التعرف الصوتي كمدخلات غير موثوقة، وتكوين حواجز أمان ثابتة أو قائمة بيضاء للنية على الخادم لتجنب ربط نصوص التحويل الصوتي الخام مباشرة بأوامر امتيازات النموذج أو استدعاء أدوات حساسة. (المصدر: BlockBeats)
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.