xAI เปิดตัว API Grok STT และ TTS ด้วยอัตราความผิดพลาดของคำที่ 6.9%

ข่าว ME News เมื่อวันที่ 18 เมษายน (UTC+8) ตามข้อมูลจาก Beating ซึ่งติดตามสถานการณ์ ได้เปิดตัว xAI สอง API เสียงแยกต่างหาก ได้แก่ Grok Speech to Text และ Grok Text to Speech ทั้งสองระบบมาจากชุดเทคโนโลยีเสียงเดียวกันที่ใช้รองรับ Grok Voice ระบบ车载ของ Tesla และบริการลูกค้าของ Starlink โดยครั้งนี้เปิดให้ใช้งานในรูปแบบ endpoint แยก เพื่อให้นักพัฒนาสามารถเชื่อมต่อโดยตรงกับแอปพลิเคชันต่างๆ เช่น ตัวแทนเสียง การถอดเสียงแบบเรียลไทม์ เครื่องมือช่วยการเข้าถึง และพอดีคส์ สำหรับ STT มีสองโหมด: REST API สำหรับการถอดเสียงแบบแบตช์สำหรับไฟล์เสียงขนาดใหญ่ โดยให้ผลลัพธ์ในระดับมิลลิวินาที และ WebSocket API สำหรับสตรีมเสียงแบบเรียลไทม์ ฟีเจอร์เสริมรวมถึง timestamp ระดับคำ การแยกผู้พูด (diarization) การรับรู้แบบหลายช่องทาง และ Inverse Text Normalization ซึ่งแปลงตัวเลข วันที่ และสกุลเงินในภาษาพูดให้เป็นข้อความโครงสร้างมาตรฐานโดยอัตโนมัติ รองรับภาษาอย่างน้อย 25 ภาษา และสามารถสลับระหว่างภาษาได้อย่างราบรื่นในระหว่างการสนทนา xAI ยังเปิดเผยผลเปรียบเทียบอัตราความผิดพลาดของคำ (WER ค่าต่ำกว่าดีกว่า): ในสถานการณ์ทั่วไป Grok อยู่ที่ 6.9% ElevenLabs 9.0% Deepgram 11.0% และ AssemblyAI 12.9% ในกรณี “การระบุ实体ในการโทร” ช่องว่างกว้างขึ้นมาก โดย Grok อยู่ที่ 5.0% ในขณะที่สามคู่แข่งอยู่ที่ 12.0% 13.5% และ 21.3% ตามลำดับ Grok ก็มีประสิทธิภาพดีกว่าเล็กน้อยในสามสถานการณ์ทางธุรกิจทั่วไปได้แก่ การประชุม พอดีคส์วิดีโอ และการโทร ตัวเลขเหล่านี้ถูกเผยแพร่โดย xAI โดยยังไม่มีการตรวจสอบซ้ำจากบุคคลที่สาม ในด้านราคา STT แบบแบตช์อยู่ที่ 0.10 ดอลลาร์ต่อชั่วโมง และแบบสตรีมอยู่ที่ 0.20 ดอลลาร์ต่อชั่วโมง ส่วน TTS อยู่ที่ 4.20 ดอลลาร์ต่อหนึ่งล้านอักขระ TTS รองรับการควบคุมอารมณ์และจังหวะผ่าน Speech Tags โดยตรง เช่น `[laugh]` `[sigh]` `[whisper]` (ที่มา: BlockBeats)