ElevenLabs ने रियल-टाइम वॉइस इंटीग्रेशन के लिए स्पीच इंजन स्किल को ओपन सोर्स किया

ME AI संदेश, डिनामिक चेक द्वारा मॉनिटर किए जाने पर, वॉइस AI यूनिकॉर्न ElevenLabs ने रियल-टाइम वॉइस डायलॉग कंपोनेंट Speech Engine Skill को ओपन सोर्स किया है। Speech Engine Skill Agent Skills ओपन स्पेसिफिकेशन का पालन करता है, जिसका उद्देश्य AI एजेंट्स और बड़े भाषा मॉडल एप्लिकेशन को हाई-फिडेलिटी, लो-लेटेंसी वॉइस इंटरैक्शन क्षमताओं के साथ त्वरित एकीकरण करना है। डेवलपर्स को केवल npx skills add elevenlabs/skills कमांड चलाने की आवश्यकता है, ताकि वे अपने प्रोजेक्ट रनटाइम में वॉइस इंजन जोड़ सकें, बिना कई API सेट के संयोजन या जटिल स्टेट मशीन बनाए। Speech Engine Skill हाई-परफॉरमेंस WebSocket कनेक्शन पर आधारित है, जहां प्रत्येक कनेक्शन एक कॉल सत्र को दर्शाता है। जब उपयोगकर्ता बोलता है, तो ब्राउज़र ऑडियो को कैप्चर करता है और इसे ElevenLabs को स्ट्रीम करता है, ElevenLabs रियल-टाइम में स्पीच-टू-टेक्सट पूरा करता है और पाठ को डेवलपर के सर्वर पर पुश करता है। सर्वर बड़े भाषा मॉडल के माध्यम से स्ट्रीमिंग टेक्सट प्रतिक्रिया उत्पन्न करता है, SDK के sendResponse() या send_response() फ़ंक्शन (स्ट्रिंग या असिंक्रोनस इटरेटर के साथ समर्थित) का उपयोग करके प्रतिक्रिया को वापस प्रेषित करता है, ElevenLabs इसे फिर से लो-लेटेंसी संश्लेषित आवाज़ में परिवर्तित करता है और ब्राउज़र में प्ले करता है। SDK पीछे से नेटवर्क रूटिंग, रिक्वेस्ट साइनेचर प्रमाणीकरण, हार्टबीट चेक और सत्र जीवनचक्र का प्रबंधन करता है, और स्वचालित रूप से संवाद में हस्तक्षेप और संवाद प्रवाह का समर्थन करता है। फ्रंटएंड डेवलपमेंट को सरल बनाने के लिए, ElevenLabs ने @elevenlabs/react और @elevenlabs/client क्लाइंट लाइब्रेरीज़ को समानांतर में प्रकाशित किया है। फ्रंटएंड पेज पर केवल न्यूनतम कोड की आवश्यकता होती है, सुरक्षित सत्र प्रमाणपत्र के साथ, जो हलचल-प्रतिरोधी और हस्तक्षेप-प्रतिरोधी डिजिटल वॉइस असिस्टेंट को तुरंत सक्रिय करता है। वास्तविक प्रस्थान में, ElevenLabs सुझाव देता है कि वॉइस पहचान पाठ कोअविश्वसनीय इनपुट माना जाए, सर्वर पर सुनिश्चित सुरक्षा सुरक्षाएँ या इच्छा-वाइटलिस्ट प्रमाणीकरण समायोजित किया जाए, ताकि मूल वॉइस-टू-टेक्सट प्रतिलिपि सीधे मॉडल के प्रविष्टि-अधिकारों या संवेदनशील उपकरणों के संचालन में परिवर्तित न हो। (स्रोत: BlockBeats)