xAI ra mắt các API Grok STT và TTS với tỷ lệ lỗi từ 6,9%

iconKuCoinFlash
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
xAI đã phát hành các API Grok STT và TTS vào ngày 18 tháng 4 (UTC+8), với tỷ lệ lỗi từ là 6,9%, tốt hơn ElevenLabs, Deepgram và AssemblyAI. Các API hỗ trợ chuyển đổi hàng loạt và thời gian thực thông qua REST và WebSocket. TTS bao gồm các điều khiển cảm xúc và nhịp điệu. Giá STT là 0,10 USD/giờ cho hàng loạt và 0,20 USD/giờ cho luồng, trong khi TTS có giá 4,20 USD mỗi 1 triệu ký tự. Việc ra mắt diễn ra trong bối cảnh tin tức về lãi suất tăng và hoạt động tin tức trên chuỗi đang gia tăng.

Theo tin tức từ ME News, vào ngày 18 tháng 4 (UTC+8), theo giám sát của Beating, xAI đã ra mắt hai API âm thanh độc lập: Grok Speech to Text và Grok Text to Speech. Cả hai đều được xây dựng trên cùng một stack âm thanh hỗ trợ Grok Voice, hệ thống xe Tesla và dịch vụ khách hàng Starlink, và giờ đây được mở dưới dạng endpoint độc lập để các nhà phát triển có thể tích hợp trực tiếp vào các ứng dụng như đại diện giọng nói, ghi âm thời gian thực, công cụ hỗ trợ tiếp cận và podcast. STT cung cấp hai chế độ: REST API dùng để chuyển đổi hàng loạt tệp âm thanh lớn với thời gian phản hồi ở mức miligiây; WebSocket API dành cho luồng âm thanh thời gian thực. Các tính năng đi kèm bao gồm dấu thời gian ở cấp từ, phân tách người nói (diarization), nhận diện riêng biệt trên nhiều kênh, và Inverse Text Normalization — tức là tự động chuyển đổi các số, ngày tháng, tiền tệ trong lời nói thành văn bản cấu trúc chuẩn hóa. Hỗ trợ hơn 25 ngôn ngữ và có thể chuyển đổi liền mạch trong cuộc hội thoại. xAI đồng thời công bố bảng so sánh tỷ lệ lỗi từ (WER, giá trị càng thấp càng tốt): trong các tình huống tổng thể, Grok đạt 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; trong tình huống “nhận diện thực thể cuộc gọi điện thoại”, khoảng cách lớn hơn nhiều: Grok 5,0%, ba đối thủ tương ứng là 12,0%, 13,5%, 21,3%. Grok cũng dẫn nhẹ trong ba kịch bản phổ biến: hội nghị, podcast video và cuộc gọi điện thoại. Các con số này do xAI tự thực hiện và công bố, chưa có bên thứ ba xác minh lại. Về giá cả, STT batch: 0,10 USD/giờ; STT streaming: 0,20 USD/giờ; TTS: 4,20 USD/1 triệu ký tự. TTS hỗ trợ điều khiển cảm xúc và nhịp điệu thông qua Speech Tags nhúng, ví dụ: `[laugh]`, `[sigh]`, `[whisper]`, ` (Nguồn: BlockBeats)

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.