الیون لیبس نے ریل ٹائم آواز اندراگریشن کے لیے اسپیچ انجن سکل کو اوپن سورس کر دیا ہے

iconKuCoinFlash
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
الیون لیبس نے اپنا اسپیچ انجن سکل اوپن سورس کے طور پر جاری کر دیا ہے، جس سے AI ایجنسز اور بڑے زبانی ماڈلز کے لیے ریل ٹائم آواز کا اندراج ممکن ہو جاتا ہے۔ یہ ٹول ڈویلپرز کو ایک واحد کمانڈ کے ذریعے آواز کی صلاحیتیں شامل کرنے کی اجازت دیتا ہے، جس سے ڈپلویمنٹ آسان ہو جاتا ہے۔ یہ ٹول کم لیٹنسی والی آواز سے ٹیکسٹ اور ریسپانس جنریشن کے لیے ویب سوکٹ کنکشنز استعمال کرتا ہے۔ @elevenlabs/react اور @elevenlabs/client لائبریریز فرانت فینڈ کام کو آسان بناتی ہیں۔ یہ قدم AI + کرپٹو خبروں اور ریل ورلڈ ایسٹس (RWA) کی خبروں کے بڑھتے ہوئے رجحان کے مطابق ہے۔
ME AI کی خبر، Beating مانیٹرنگ کے مطابق، آواز AI یونیکورن ElevenLabs نے ریل ٹائم آواز ڈائیلاگ کمپوننٹ Speech Engine Skill کو اوپن سورس کر دیا ہے۔ Speech Engine Skill Agent Skills کے اوپن سپیفیکیشن کے مطابق ہے، جس کا مقصد AI ایجینٹس اور بڑے زبان ماڈل ایپلیکیشنز کو اعلیٰ کوالٹی، کم لیٹنسی والی آواز انٹرایکشن کی صلاحیت فراہم کرنا ہے۔ ڈویلپرز صرف npx skills add elevenlabs/skills کمانڈ چلائیں، تاکہ آواز انجن کو اپنے پراجیکٹ رن ٹائم میں شامل کر سکیں، بغیر کسی متعدد API سے جڑنے یا پیچیدہ سٹیٹ مشین بنائے۔ Speech Engine Skill اعلیٰ پرفارمنس والے WebSocket کنکشن پر بنایا گیا ہے، جہاں ہر کنکشن ایک کال سیشن کو ظاہر کرتا ہے۔ جب صارف بولنا شروع کرتا ہے، تو براؤزر آواز کو کیپچر کرتا ہے اور اسے ElevenLabs کو سٹریم کرتا ہے، جو ریل ٹائم میں آواز کو ٹیکسٹ میں تبدیل کرکے ٹیکسٹ کو ڈویلپر کے سرور پر بھیج دیتا ہے۔ سرور بڑے زبان ماڈل کے ذریعے سٹریمنگ ٹیکسٹ ریسپانس جنریٹ کرتا ہے، اور SDK کے sendResponse() یا send_response() فنکشن (جس میں سٹرنگ یا ایسنک اٹیریٹر دونوں سپورٹ ہوتے ہیں) کا استعمال کرتے ہوئے ریسپانس واپس بھیجتا ہے، جس کے بعد ElevenLabs اسے کم لیٹنسی والے سنتھیسائزڈ آواز میں تبدیل کرکے براؤزر میں پلے کرتا ہے۔ SDK پس منظر میں نیٹ ورک راؤٹنگ، ریکوسٹ سائنچر ویریفکیشن، ہارٹ بیٹ چیک اور سیشن لائف سائکل کو مینج کرتا ہے اور اس میں اصل میں انٹرپٹ اور ڈائیلاگ ٹرنز سپورٹ شامل ہے۔ فرنٹ اینڈ ڈویلپمنٹ کو آسان بنانے کے لئے، ElevenLabs نے @elevenlabs/react اور @elevenlabs/client کلائنٹ لائبریریز بھی جاری کردیں۔ فرنٹ اینڈ پیج صرف تھوڑا سا کوڈ استعمال کرتا ہے، اور سرور سے جاری کردہ سکیور سیشن کرڈنشلز کے ساتھ، انتہائی آواز نوائس اور انٹرپٹ پروٹیکشن والے ڈجٹل آواز اسسٹنٹ کو جلد سے جلد شروع کر سکتا ہے۔ عملی طور پر ڈپلومنٹ میں، ElevenLabs مشورہ دे�تا ہے کہ آواز شناخت والے ٹیکسٹ کو غیر قابلِ اعتماد ان پُٹ سمجھا جائے، اور سرور پر ڈیٹرمینسٹک سکھتِ حفاظت گارڈ رائلز یا انٹینٹ وائٹ لسٹ ویریفکیشن فعال کرد جائے، تاکہ آواز شناخت والے ٹیکسٹ کو براہ راست بڑے ماڈل کے پرivilجڈ اینشنز یا حساس ٹولز تک رسائی دینے سے روکا جا سکے۔ (ذرائع: BlockBeats)
اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔