ElevenLabs เปิดแหล่งที่มาของทักษะเครื่องมือเสียงสำหรับการผสานเสียงแบบเรียลไทม์
KuCoinFlashElevenLabs ได้เปิดตัวทักษะ Speech Engine ในรูปแบบโอเพ่นซอร์ส ทำให้สามารถผสานเสียงแบบเรียลไทม์สำหรับตัวแทน AI และโมเดลภาษาขนาดใหญ่ได้ เครื่องมือนี้ช่วยให้นักพัฒนาสามารถเพิ่มความสามารถด้านเสียงผ่านคำสั่งเดียว ทำให้การปรับใช้งานง่ายขึ้น โดยใช้การเชื่อมต่อ WebSocket สำหรับการแปลงเสียงเป็นข้อความและการสร้างคำตอบที่มีความหน่วงต่ำ ไลบรารี @elevenlabs/react และ @elevenlabs/client ช่วยลดความซับซ้อนในการทำงานด้านฟรอนต์เอนด์ การเคลื่อนไหวนี้สอดคล้องกับแนวโน้มข่าว AI + คริปโต และข่าวเกี่ยวกับสินทรัพย์จริง (RWA)
ME AI ข่าว ตามการตรวจสอบของ Beating บริษัทสตาร์ทอัพด้าน AI ด้านเสียง ElevenLabs ได้เปิดแหล่งรหัสแบบเปิดสำหรับส่วนประกอบการสนทนาเสียงแบบเรียลไทม์ชื่อ Speech Engine Skill โดย Speech Engine Skill ปฏิบัติตามมาตรฐานเปิด Agent Skills เพื่อช่วยให้ตัวแทน AI และแอปพลิเคชันโมเดลภาษาขนาดใหญ่สามารถผสานรวมความสามารถในการโต้ตอบด้วยเสียงที่มีคุณภาพสูงและหน่วงเวลาต่ำได้อย่างรวดเร็ว นักพัฒนาเพียงแค่รันคำสั่ง npx skills add elevenlabs/skills เพื่อเพิ่มเครื่องจักรเสียงลงใน runtime ของโปรเจกต์ โดยไม่จำเป็นต้องเชื่อมต่อกับ API หลายชุดหรือสร้างสถานะเครื่องที่ซับซ้อน Speech Engine Skill ถูกสร้างขึ้นบนการเชื่อมต่อ WebSocket ประสิทธิภาพสูง โดยแต่ละการเชื่อมต่อแทนการสนทนาหนึ่งครั้ง เมื่อผู้ใช้พูด เบราว์เซอร์จะจับเสียงและส่งแบบสตรีมไปยัง ElevenLabs ซึ่งจะแปลงเสียงเป็นข้อความแบบเรียลไทม์และส่งข้อความไปยังเซิร์ฟเวอร์ของนักพัฒนา เซิร์ฟเวอร์จะสร้างการตอบกลับแบบสตรีมผ่านโมเดลภาษาขนาดใหญ่ แล้วใช้ฟังก์ชัน sendResponse() หรือ send_response() (รองรับสตริงหรือ async iterator) ส่งการตอบกลับกลับไป ElevenLabs จะแปลงกลับเป็นเสียงสังเคราะห์ที่มีหน่วงเวลาต่ำและเล่นในเบราว์เซอร์ SDK จะจัดการการกำหนดเส้นทางเครือข่าย การตรวจสอบลายเซ็นคำขอ การตรวจจับ heartbeat และวงจรชีวิตของเซสชันแบบพื้นฐาน และรองรับการขัดจังหวะและการสลับบทสนทนาโดยตรง เพื่อให้ง่ายต่อการพัฒนาฝั่งไคลเอนต์ ElevenLabs ยังได้เปิดตัวไลบรารีฝั่งไคลเอนต์ @elevenlabs/react และ @elevenlabs/client พร้อมกัน หน้าเว็บฝั่งไคลเอนต์สามารถเรียกใช้ผู้ช่วยเสียงดิจิทัลที่มีความสามารถในการต้านเสียงรบกวนและการขัดจังหวะได้อย่างรวดเร็ว โดยใช้โค้ดเพียงเล็กน้อยร่วมกับใบอนุญาตเซสชันที่ปลอดภัยที่เซิร์ฟเวอร์ออกให้ ในสถานการณ์การใช้งานจริง ElevenLabs แนะนำให้พิจารณาข้อความที่รับรู้จากเสียงเป็นข้อมูลนำเข้าที่ไม่น่าเชื่อถือ และตั้งค่ามาตรการป้องกันความปลอดภัยหรือรายการอนุญาตเจตนาอย่างชัดเจนบนเซิร์ฟเวอร์ เพื่อป้องกันไม่ให้ข้อความที่แปลงจากเสียงโดยตรงถูกใช้เป็นคำสั่งพิเศษของโมเดลขนาดใหญ่หรือเรียกใช้เครื่องมือที่ละเอียดอ่อน (ที่มา: BlockBeats)คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้
การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา