ElevenLabs เปิดแหล่งที่มาของทักษะเครื่องมือเสียงสำหรับการผสานเสียงแบบเรียลไทม์

ME AI ข่าว ตามการตรวจสอบของ Beating บริษัทสตาร์ทอัพด้าน AI ด้านเสียง ElevenLabs ได้เปิดแหล่งรหัสแบบเปิดสำหรับส่วนประกอบการสนทนาเสียงแบบเรียลไทม์ชื่อ Speech Engine Skill โดย Speech Engine Skill ปฏิบัติตามมาตรฐานเปิด Agent Skills เพื่อช่วยให้ตัวแทน AI และแอปพลิเคชันโมเดลภาษาขนาดใหญ่สามารถผสานรวมความสามารถในการโต้ตอบด้วยเสียงที่มีคุณภาพสูงและหน่วงเวลาต่ำได้อย่างรวดเร็ว นักพัฒนาเพียงแค่รันคำสั่ง npx skills add elevenlabs/skills เพื่อเพิ่มเครื่องจักรเสียงลงใน runtime ของโปรเจกต์ โดยไม่จำเป็นต้องเชื่อมต่อกับ API หลายชุดหรือสร้างสถานะเครื่องที่ซับซ้อน Speech Engine Skill ถูกสร้างขึ้นบนการเชื่อมต่อ WebSocket ประสิทธิภาพสูง โดยแต่ละการเชื่อมต่อแทนการสนทนาหนึ่งครั้ง เมื่อผู้ใช้พูด เบราว์เซอร์จะจับเสียงและส่งแบบสตรีมไปยัง ElevenLabs ซึ่งจะแปลงเสียงเป็นข้อความแบบเรียลไทม์และส่งข้อความไปยังเซิร์ฟเวอร์ของนักพัฒนา เซิร์ฟเวอร์จะสร้างการตอบกลับแบบสตรีมผ่านโมเดลภาษาขนาดใหญ่ แล้วใช้ฟังก์ชัน sendResponse() หรือ send_response() (รองรับสตริงหรือ async iterator) ส่งการตอบกลับกลับไป ElevenLabs จะแปลงกลับเป็นเสียงสังเคราะห์ที่มีหน่วงเวลาต่ำและเล่นในเบราว์เซอร์ SDK จะจัดการการกำหนดเส้นทางเครือข่าย การตรวจสอบลายเซ็นคำขอ การตรวจจับ heartbeat และวงจรชีวิตของเซสชันแบบพื้นฐาน และรองรับการขัดจังหวะและการสลับบทสนทนาโดยตรง เพื่อให้ง่ายต่อการพัฒนาฝั่งไคลเอนต์ ElevenLabs ยังได้เปิดตัวไลบรารีฝั่งไคลเอนต์ @elevenlabs/react และ @elevenlabs/client พร้อมกัน หน้าเว็บฝั่งไคลเอนต์สามารถเรียกใช้ผู้ช่วยเสียงดิจิทัลที่มีความสามารถในการต้านเสียงรบกวนและการขัดจังหวะได้อย่างรวดเร็ว โดยใช้โค้ดเพียงเล็กน้อยร่วมกับใบอนุญาตเซสชันที่ปลอดภัยที่เซิร์ฟเวอร์ออกให้ ในสถานการณ์การใช้งานจริง ElevenLabs แนะนำให้พิจารณาข้อความที่รับรู้จากเสียงเป็นข้อมูลนำเข้าที่ไม่น่าเชื่อถือ และตั้งค่ามาตรการป้องกันความปลอดภัยหรือรายการอนุญาตเจตนาอย่างชัดเจนบนเซิร์ฟเวอร์ เพื่อป้องกันไม่ให้ข้อความที่แปลงจากเสียงโดยตรงถูกใช้เป็นคำสั่งพิเศษของโมเดลขนาดใหญ่หรือเรียกใช้เครื่องมือที่ละเอียดอ่อน (ที่มา: BlockBeats)