ElevenLabs ने रियल-टाइम वॉइस इंटीग्रेशन के लिए स्पीच इंजन स्किल को ओपन सोर्स किया
KuCoinFlash
साझा करें
सारांश
ElevenLabs ने अपनी स्पीच इंजन स्किल को ओपन सोर्स के रूप में जारी कर दिया है, जिससे AI एजेंट और बड़े भाषा मॉडल के लिए रियल-टाइम आवाज़ समाकलन संभव हो गया है। यह टूल डेवलपर्स को एक ही कमांड के माध्यम से आवाज़ क्षमताएं जोड़ने की अनुमति देता है, जिससे डिप्लॉयमेंट सरल हो जाता है। यह निम्न-लेटेंसी ध्वनि-से-पाठ और प्रतिक्रिया उत्पादन के लिए WebSocket कनेक्शन का उपयोग करता है। @elevenlabs/react और @elevenlabs/client पुस्तकालय फ्रंटएंड कार्यों को सरल बनाते हैं। यह कदम AI + क्रिप्टो समाचार और वास्तविक संपत्ति (RWA) समाचार के बढ़ते प्रवृत्तियों के साथ समानता रखता है।
ME AI संदेश, डिनामिक चेक द्वारा मॉनिटर किए जाने पर, वॉइस AI यूनिकॉर्न ElevenLabs ने रियल-टाइम वॉइस डायलॉग कंपोनेंट Speech Engine Skill को ओपन सोर्स किया है। Speech Engine Skill Agent Skills ओपन स्पेसिफिकेशन का पालन करता है, जिसका उद्देश्य AI एजेंट्स और बड़े भाषा मॉडल एप्लिकेशन को हाई-फिडेलिटी, लो-लेटेंसी वॉइस इंटरैक्शन क्षमताओं के साथ त्वरित एकीकरण करना है। डेवलपर्स को केवल npx skills add elevenlabs/skills कमांड चलाने की आवश्यकता है, ताकि वे अपने प्रोजेक्ट रनटाइम में वॉइस इंजन जोड़ सकें, बिना कई API सेट के संयोजन या जटिल स्टेट मशीन बनाए। Speech Engine Skill हाई-परफॉरमेंस WebSocket कनेक्शन पर आधारित है, जहां प्रत्येक कनेक्शन एक कॉल सत्र को दर्शाता है। जब उपयोगकर्ता बोलता है, तो ब्राउज़र ऑडियो को कैप्चर करता है और इसे ElevenLabs को स्ट्रीम करता है, ElevenLabs रियल-टाइम में स्पीच-टू-टेक्सट पूरा करता है और पाठ को डेवलपर के सर्वर पर पुश करता है। सर्वर बड़े भाषा मॉडल के माध्यम से स्ट्रीमिंग टेक्सट प्रतिक्रिया उत्पन्न करता है, SDK के sendResponse() या send_response() फ़ंक्शन (स्ट्रिंग या असिंक्रोनस इटरेटर के साथ समर्थित) का उपयोग करके प्रतिक्रिया को वापस प्रेषित करता है, ElevenLabs इसे फिर से लो-लेटेंसी संश्लेषित आवाज़ में परिवर्तित करता है और ब्राउज़र में प्ले करता है। SDK पीछे से नेटवर्क रूटिंग, रिक्वेस्ट साइनेचर प्रमाणीकरण, हार्टबीट चेक और सत्र जीवनचक्र का प्रबंधन करता है, और स्वचालित रूप से संवाद में हस्तक्षेप और संवाद प्रवाह का समर्थन करता है। फ्रंटएंड डेवलपमेंट को सरल बनाने के लिए, ElevenLabs ने @elevenlabs/react और @elevenlabs/client क्लाइंट लाइब्रेरीज़ को समानांतर में प्रकाशित किया है। फ्रंटएंड पेज पर केवल न्यूनतम कोड की आवश्यकता होती है, सुरक्षित सत्र प्रमाणपत्र के साथ, जो हलचल-प्रतिरोधी और हस्तक्षेप-प्रतिरोधी डिजिटल वॉइस असिस्टेंट को तुरंत सक्रिय करता है। वास्तविक प्रस्थान में, ElevenLabs सुझाव देता है कि वॉइस पहचान पाठ कोअविश्वसनीय इनपुट माना जाए, सर्वर पर सुनिश्चित सुरक्षा सुरक्षाएँ या इच्छा-वाइटलिस्ट प्रमाणीकरण समायोजित किया जाए, ताकि मूल वॉइस-टू-टेक्सट प्रतिलिपि सीधे मॉडल के प्रविष्टि-अधिकारों या संवेदनशील उपकरणों के संचालन में परिवर्तित न हो। (स्रोत: BlockBeats)
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।