ElevenLabs Membuka Sumber Mesin Ucapan untuk Integrasi Suara Secara Masa Nyata

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
ElevenLabs telah melepaskan Kecekapan Mesin Ucapan sebagai sumber terbuka, membolehkan integrasi suara masa nyata untuk agen AI dan model bahasa besar. Alat ini membolehkan pembangun menambah kemampuan suara melalui satu arahan sahaja, mempermudah pelaksanaan. Ia menggunakan sambungan WebSocket untuk pengenalan ucapan ke teks dan penghasilan respons dengan latensi rendah. Pustaka @elevenlabs/react dan @elevenlabs/client mempermudah kerja frontend. Langkah ini selari dengan tren berita AI + kripto dan berita aset dunia nyata (RWA).
ME AI mesej, menurut pemantauan Beating, unicorn AI suara ElevenLabs secara rasmi membuka sumber komponen perbualan suara masa nyata Speech Engine Skill. Speech Engine Skill mengikuti spesifikasi terbuka Agent Skills, bertujuan untuk membolehkan agen AI dan aplikasi model bahasa besar mengintegrasikan kemampuan interaksi suara beresolusi tinggi dan latensi rendah dengan cepat. Pembangun hanya perlu menjalankan arahan npx skills add elevenlabs/skills untuk menambahkan enjin suara ke runtime projek, tanpa perlu menghubungkan pelbagai API atau membina mesin keadaan yang kompleks. Speech Engine Skill dibina berdasarkan sambungan WebSocket berprestasi tinggi, di mana setiap sambungan mewakili sesi panggilan. Semasa pengguna berbicara, browser menangkap audio dan menghantar secara streaming ke ElevenLabs, yang kemudian secara masa nyata menukar suara kepada teks dan menghantar teks tersebut ke pelayan pembangun. Pelayan menghasilkan respons teks secara streaming melalui model bahasa besar, dan menggunakan fungsi sendResponse() atau send_response() (menyokong rentetan atau iterasi asinkron) untuk menghantar respons kembali, kemudian ElevenLabs menukarnya kepada suara sintetik latensi rendah yang diputar di browser. SDK menguruskan laluan rangkaian, pengesahan tanda tangan permintaan, pemeriksaan heartbeat, dan hayat sesi secara latar belakang, serta menyokong gangguan percakapan dan giliran perbualan secara asli. Untuk mempermudah pembangunan depan, ElevenLabs juga melancarkan pustaka klien @elevenlabs/react dan @elevenlabs/client secara serentak. Halaman depan hanya memerlukan sedikit kod, bersama dengan kredensial sesi selamat yang dikeluarkan oleh pelayan, untuk segera memulakan pembantu suara digital yang tahan gangguan dan bunyi latar. Dalam pelaksanaan sebenar, ElevenLabs mencadangkan agar teks pengenalan suara dianggap sebagai input tidak boleh dipercayai, dan mengkonfigurasi pagar keselamatan yang pasti atau semakan senarai putih niat di pelayan, untuk mengelakkan teks hasil transkripsi suara asli secara langsung dipetakan kepada tindakan istimewa model besar atau panggilan alat sensitif. (Sumber: BlockBeats)
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.