ElevenLabs Membuka Sumber Mesin Suara untuk Integrasi Suara Real-Time
KuCoinFlash
Bagikan
Ringkasan
ElevenLabs telah merilis Skill Speech Engine-nya sebagai sumber terbuka, memungkinkan integrasi suara real-time untuk agen AI dan model bahasa besar. Alat ini memungkinkan pengembang menambahkan kemampuan suara melalui satu perintah, menyederhanakan proses penyebaran. Alat ini menggunakan koneksi WebSocket untuk speech-to-text dan generasi respons dengan latensi rendah. Library @elevenlabs/react dan @elevenlabs/client menyederhanakan pekerjaan frontend. Langkah ini selaras dengan tren berita AI + kripto dan berita aset nyata (RWA) yang terus berkembang.
ME AI Berita, menurut pemantauan Beating, unicorn AI suara ElevenLabs secara resmi melepaskan komponen percakapan suara real-time bernama Speech Engine Skill. Speech Engine Skill mengikuti spesifikasi terbuka Agent Skills, bertujuan untuk memungkinkan agen AI dan aplikasi model bahasa besar mengintegrasikan kemampuan interaksi suara beresolusi tinggi dan latensi rendah dengan cepat. Pengembang hanya perlu menjalankan perintah npx skills add elevenlabs/skills untuk menambahkan mesin suara ke runtime proyek, tanpa perlu menghubungkan beberapa API atau membangun mesin status yang kompleks. Speech Engine Skill dibangun berdasarkan koneksi WebSocket berkinerja tinggi, di mana setiap koneksi mewakili sesi panggilan. Saat pengguna berbicara, browser menangkap audio dan mengalirkannya ke ElevenLabs, yang secara real-time mengubah suara menjadi teks dan mengirimkan teks tersebut ke server pengembang. Server kemudian menghasilkan respons teks streaming melalui model bahasa besar, dan mengirimkan respons kembali menggunakan fungsi sendResponse() atau send_response() (mendukung string atau async iterator) melalui SDK. ElevenLabs selanjutnya mengonversinya menjadi suara sintesis latensi rendah yang diputar di browser. SDK mengelola routing jaringan, verifikasi tanda tangan permintaan, deteksi heartbeat, dan siklus hidup sesi secara latar belakang, serta secara native mendukung interupsi dan pergantian percakapan. Untuk menyederhanakan pengembangan frontend, ElevenLabs juga meluncurkan library klien @elevenlabs/react dan @elevenlabs/client. Hanya diperlukan sedikit kode di halaman frontend, bersama dengan kredensial sesi aman yang dikeluarkan server, untuk segera mengaktifkan asisten suara digital yang tahan terhadap kebisingan dan interupsi. Dalam penerapan nyata, ElevenLabs menyarankan untuk memperlakukan teks pengenalan suara sebagai input yang tidak dapat dipercaya, dan mengonfigurasi pengamanan deterministik atau daftar izin niat di sisi server untuk mencegah teks transkripsi suara mentah secara langsung dipetakan menjadi tindakan berhak istimewa atau pemanggilan alat sensitif oleh model besar. (Sumber: BlockBeats)
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.