ElevenLabs Membuka Sumber Mesin Ucapan untuk Integrasi Suara Secara Masa Nyata

ME AI mesej, menurut pemantauan Beating, unicorn AI suara ElevenLabs secara rasmi membuka sumber komponen perbualan suara masa nyata Speech Engine Skill. Speech Engine Skill mengikuti spesifikasi terbuka Agent Skills, bertujuan untuk membolehkan agen AI dan aplikasi model bahasa besar mengintegrasikan kemampuan interaksi suara beresolusi tinggi dan latensi rendah dengan cepat. Pembangun hanya perlu menjalankan arahan npx skills add elevenlabs/skills untuk menambahkan enjin suara ke runtime projek, tanpa perlu menghubungkan pelbagai API atau membina mesin keadaan yang kompleks. Speech Engine Skill dibina berdasarkan sambungan WebSocket berprestasi tinggi, di mana setiap sambungan mewakili sesi panggilan. Semasa pengguna berbicara, browser menangkap audio dan menghantar secara streaming ke ElevenLabs, yang kemudian secara masa nyata menukar suara kepada teks dan menghantar teks tersebut ke pelayan pembangun. Pelayan menghasilkan respons teks secara streaming melalui model bahasa besar, dan menggunakan fungsi sendResponse() atau send_response() (menyokong rentetan atau iterasi asinkron) untuk menghantar respons kembali, kemudian ElevenLabs menukarnya kepada suara sintetik latensi rendah yang diputar di browser. SDK menguruskan laluan rangkaian, pengesahan tanda tangan permintaan, pemeriksaan heartbeat, dan hayat sesi secara latar belakang, serta menyokong gangguan percakapan dan giliran perbualan secara asli. Untuk mempermudah pembangunan depan, ElevenLabs juga melancarkan pustaka klien @elevenlabs/react dan @elevenlabs/client secara serentak. Halaman depan hanya memerlukan sedikit kod, bersama dengan kredensial sesi selamat yang dikeluarkan oleh pelayan, untuk segera memulakan pembantu suara digital yang tahan gangguan dan bunyi latar. Dalam pelaksanaan sebenar, ElevenLabs mencadangkan agar teks pengenalan suara dianggap sebagai input tidak boleh dipercayai, dan mengkonfigurasi pagar keselamatan yang pasti atau semakan senarai putih niat di pelayan, untuk mengelakkan teks hasil transkripsi suara asli secara langsung dipetakan kepada tindakan istimewa model besar atau panggilan alat sensitif. (Sumber: BlockBeats)