xAI تطلق واجهات برمجة تطبيقات Grok STT وTTS بمعدل خطأ كلمات قدره 6.9%

أخبار ME، في 18 أبريل (UTC+8)، وفقًا لمراقبة Beating، أطلقت xAI واجهتين برمجيتين صوتيتين مستقلتين: Grok Speech to Text و Grok Text to Speech. وكلاهما مستمد من نفس مجموعة تقنيات الصوت التي تدعم Grok Voice ونظام Tesla السياري وخدمة عملاء Starlink، وقد تم فتحهما الآن كنقاط نهاية مستقلة، مما يسمح للمطورين بالربط المباشر مع تطبيقات مثل الوكلاء الصوتيين، والتحويل الفوري للنص، وأدوات الوصول، والبودكاستات. يقدم STT نمطين: واجهة برمجة تطبيقات REST لتحويل الملفات الصوتية الكبيرة دفعة واحدة مع استجابة على مستوى الملي ثانية؛ وواجهة برمجة تطبيقات WebSocket مخصصة للتدفق الصوتي الفوري. تشمل الميزات الإضافية: توقيتات على مستوى الكلمة، فصل المتحدثين (diarization)، التعرف المنفصل على قنوات متعددة، وInverse Text Normalization، وهي تقنية تحول تلقائيًا الأرقام والتواريخ والعملات في الكلام العادي إلى نص منظم وموحّد. تغطي اللغة أكثر من 25 لغة، ويمكن التبديل بينها بسلاسة أثناء المحادثة. كما أعلنت xAI مجموعة من نسب أخطاء الكلمات (WER، وكلما انخفض الرقم كان أفضل): في السيناريوهات العامة، Grok 6.9%، ElevenLabs 9.0%، Deepgram 11.0%، AssemblyAI 12.9%؛ وفي "التعرف على الكيانات في مكالمات الهاتف"، يتفوق Grok بشكل أكبر: 5.0% مقابل 12.0% و13.5% و21.3% على التوالي. كما يتفوق Grok قليلاً في ثلاث سيناريوهات تجارية شائعة: الاجتماعات، وبودكاستات الفيديو، والمكالمات الهاتفية. هذه الأرقام نُشرت من قبل xAI بناءً على اختباراتها الخاصة، ولم يتم إعادة اختبارها من قبل طرف ثالث بعد. من حيث التسعير: STT للتحويل الدفعي بسعر 0.10 دولار أمريكي/ساعة، وللتدفق المستمر بسعر 0.20 دولار أمريكي/ساعة؛ أما TTS فبسعر 4.20 دولار أمريكي لكل مليون حرف. يدعم TTS التحكم في المشاعر والإيقاع باستخدام علامات صوتية مدمجة مثل `[laugh]` و`[sigh]` و`[whisper]` و` (المصدر: BlockBeats)