xAI เปิดตัว API Grok STT และ TTS ด้วยอัตราความผิดพลาดของคำที่ 6.9%

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
xAI เปิดตัว API Grok STT และ TTS เมื่อวันที่ 18 เมษายน (UTC+8) โดยมีอัตราข้อผิดพลาดของคำอยู่ที่ 6.9% ดีกว่า ElevenLabs, Deepgram และ AssemblyAI API เหล่านี้รองรับการถอดเสียงแบบเป็นชุดและแบบเรียลไทม์ผ่าน REST และ WebSocket TTS มีฟีเจอร์ควบคุมอารมณ์และจังหวะ ราคาของ STT อยู่ที่ $0.10 ต่อชั่วโมงสำหรับแบบเป็นชุด และ $0.20 ต่อชั่วโมงสำหรับแบบสตรีมมิ่ง ส่วน TTS คิดราคา $4.20 ต่อ 1 ล้านตัวอักษร การเปิดตัวนี้เกิดขึ้นในช่วงที่มีข่าวเกี่ยวกับอัตราดอกเบี้ยที่เพิ่มขึ้นและกิจกรรมข่าวบนโซ่เพิ่มมากขึ้น

ข่าว ME News เมื่อวันที่ 18 เมษายน (UTC+8) ตามข้อมูลจาก Beating ซึ่งติดตามสถานการณ์ ได้เปิดตัว xAI สอง API เสียงแยกต่างหาก ได้แก่ Grok Speech to Text และ Grok Text to Speech ทั้งสองระบบมาจากชุดเทคโนโลยีเสียงเดียวกันที่ใช้รองรับ Grok Voice ระบบ车载ของ Tesla และบริการลูกค้าของ Starlink โดยครั้งนี้เปิดให้ใช้งานในรูปแบบ endpoint แยก เพื่อให้นักพัฒนาสามารถเชื่อมต่อโดยตรงกับแอปพลิเคชันต่างๆ เช่น ตัวแทนเสียง การถอดเสียงแบบเรียลไทม์ เครื่องมือช่วยการเข้าถึง และพอดีคส์ สำหรับ STT มีสองโหมด: REST API สำหรับการถอดเสียงแบบแบตช์สำหรับไฟล์เสียงขนาดใหญ่ โดยให้ผลลัพธ์ในระดับมิลลิวินาที และ WebSocket API สำหรับสตรีมเสียงแบบเรียลไทม์ ฟีเจอร์เสริมรวมถึง timestamp ระดับคำ การแยกผู้พูด (diarization) การรับรู้แบบหลายช่องทาง และ Inverse Text Normalization ซึ่งแปลงตัวเลข วันที่ และสกุลเงินในภาษาพูดให้เป็นข้อความโครงสร้างมาตรฐานโดยอัตโนมัติ รองรับภาษาอย่างน้อย 25 ภาษา และสามารถสลับระหว่างภาษาได้อย่างราบรื่นในระหว่างการสนทนา xAI ยังเปิดเผยผลเปรียบเทียบอัตราความผิดพลาดของคำ (WER ค่าต่ำกว่าดีกว่า): ในสถานการณ์ทั่วไป Grok อยู่ที่ 6.9% ElevenLabs 9.0% Deepgram 11.0% และ AssemblyAI 12.9% ในกรณี “การระบุ实体ในการโทร” ช่องว่างกว้างขึ้นมาก โดย Grok อยู่ที่ 5.0% ในขณะที่สามคู่แข่งอยู่ที่ 12.0% 13.5% และ 21.3% ตามลำดับ Grok ก็มีประสิทธิภาพดีกว่าเล็กน้อยในสามสถานการณ์ทางธุรกิจทั่วไปได้แก่ การประชุม พอดีคส์วิดีโอ และการโทร ตัวเลขเหล่านี้ถูกเผยแพร่โดย xAI โดยยังไม่มีการตรวจสอบซ้ำจากบุคคลที่สาม ในด้านราคา STT แบบแบตช์อยู่ที่ 0.10 ดอลลาร์ต่อชั่วโมง และแบบสตรีมอยู่ที่ 0.20 ดอลลาร์ต่อชั่วโมง ส่วน TTS อยู่ที่ 4.20 ดอลลาร์ต่อหนึ่งล้านอักขระ TTS รองรับการควบคุมอารมณ์และจังหวะผ่าน Speech Tags โดยตรง เช่น `[laugh]` `[sigh]` `[whisper]` (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา