ElevenLabs Membuka Sumber Mesin Suara untuk Integrasi Suara Real-Time

ME AI Berita, menurut pemantauan Beating, unicorn AI suara ElevenLabs secara resmi melepaskan komponen percakapan suara real-time bernama Speech Engine Skill. Speech Engine Skill mengikuti spesifikasi terbuka Agent Skills, bertujuan untuk memungkinkan agen AI dan aplikasi model bahasa besar mengintegrasikan kemampuan interaksi suara beresolusi tinggi dan latensi rendah dengan cepat. Pengembang hanya perlu menjalankan perintah npx skills add elevenlabs/skills untuk menambahkan mesin suara ke runtime proyek, tanpa perlu menghubungkan beberapa API atau membangun mesin status yang kompleks. Speech Engine Skill dibangun berdasarkan koneksi WebSocket berkinerja tinggi, di mana setiap koneksi mewakili sesi panggilan. Saat pengguna berbicara, browser menangkap audio dan mengalirkannya ke ElevenLabs, yang secara real-time mengubah suara menjadi teks dan mengirimkan teks tersebut ke server pengembang. Server kemudian menghasilkan respons teks streaming melalui model bahasa besar, dan mengirimkan respons kembali menggunakan fungsi sendResponse() atau send_response() (mendukung string atau async iterator) melalui SDK. ElevenLabs selanjutnya mengonversinya menjadi suara sintesis latensi rendah yang diputar di browser. SDK mengelola routing jaringan, verifikasi tanda tangan permintaan, deteksi heartbeat, dan siklus hidup sesi secara latar belakang, serta secara native mendukung interupsi dan pergantian percakapan. Untuk menyederhanakan pengembangan frontend, ElevenLabs juga meluncurkan library klien @elevenlabs/react dan @elevenlabs/client. Hanya diperlukan sedikit kode di halaman frontend, bersama dengan kredensial sesi aman yang dikeluarkan server, untuk segera mengaktifkan asisten suara digital yang tahan terhadap kebisingan dan interupsi. Dalam penerapan nyata, ElevenLabs menyarankan untuk memperlakukan teks pengenalan suara sebagai input yang tidak dapat dipercaya, dan mengonfigurasi pengamanan deterministik atau daftar izin niat di sisi server untuk mencegah teks transkripsi suara mentah secara langsung dipetakan menjadi tindakan berhak istimewa atau pemanggilan alat sensitif oleh model besar. (Sumber: BlockBeats)