xAI تطلق واجهات برمجة تطبيقات Grok STT وTTS بمعدل خطأ كلمات قدره 6.9%

iconKuCoinFlash
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
أطلقت xAI واجهات برمجة تطبيقات Grok STT وTTS في 18 أبريل (UTC+8)، مع معدل خطأ كلمات قدره 6.9٪، وهو أفضل من ElevenLabs وDeepgram وAssemblyAI. تدعم الواجهات التحويل الجماعي والفردي في الوقت الحقيقي عبر REST وWebSocket. تشمل TTS تحكمًا في العاطفة والإيقاع. سعر STT هو 0.10 دولار في الساعة للتحويل الجماعي و0.20 دولار في الساعة للبث، بينما يبلغ سعر TTS 4.20 دولار لكل مليون حرف. يأتي الإطلاق في ظل ارتفاع اهتمام أسعار الفائدة وزيادة النشاط الإخباري على السلسلة.

أخبار ME، في 18 أبريل (UTC+8)، وفقًا لمراقبة Beating، أطلقت xAI واجهتين برمجيتين صوتيتين مستقلتين: Grok Speech to Text و Grok Text to Speech. وكلاهما مستمد من نفس مجموعة تقنيات الصوت التي تدعم Grok Voice ونظام Tesla السياري وخدمة عملاء Starlink، وقد تم فتحهما الآن كنقاط نهاية مستقلة، مما يسمح للمطورين بالربط المباشر مع تطبيقات مثل الوكلاء الصوتيين، والتحويل الفوري للنص، وأدوات الوصول، والبودكاستات. يقدم STT نمطين: واجهة برمجة تطبيقات REST لتحويل الملفات الصوتية الكبيرة دفعة واحدة مع استجابة على مستوى الملي ثانية؛ وواجهة برمجة تطبيقات WebSocket مخصصة للتدفق الصوتي الفوري. تشمل الميزات الإضافية: توقيتات على مستوى الكلمة، فصل المتحدثين (diarization)، التعرف المنفصل على قنوات متعددة، وInverse Text Normalization، وهي تقنية تحول تلقائيًا الأرقام والتواريخ والعملات في الكلام العادي إلى نص منظم وموحّد. تغطي اللغة أكثر من 25 لغة، ويمكن التبديل بينها بسلاسة أثناء المحادثة. كما أعلنت xAI مجموعة من نسب أخطاء الكلمات (WER، وكلما انخفض الرقم كان أفضل): في السيناريوهات العامة، Grok 6.9%، ElevenLabs 9.0%، Deepgram 11.0%، AssemblyAI 12.9%؛ وفي "التعرف على الكيانات في مكالمات الهاتف"، يتفوق Grok بشكل أكبر: 5.0% مقابل 12.0% و13.5% و21.3% على التوالي. كما يتفوق Grok قليلاً في ثلاث سيناريوهات تجارية شائعة: الاجتماعات، وبودكاستات الفيديو، والمكالمات الهاتفية. هذه الأرقام نُشرت من قبل xAI بناءً على اختباراتها الخاصة، ولم يتم إعادة اختبارها من قبل طرف ثالث بعد. من حيث التسعير: STT للتحويل الدفعي بسعر 0.10 دولار أمريكي/ساعة، وللتدفق المستمر بسعر 0.20 دولار أمريكي/ساعة؛ أما TTS فبسعر 4.20 دولار أمريكي لكل مليون حرف. يدعم TTS التحكم في المشاعر والإيقاع باستخدام علامات صوتية مدمجة مثل `[laugh]` و`[sigh]` و`[whisper]` و` (المصدر: BlockBeats)

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.