ME نیوز کے مطابق، 18 اپریل (UTC+8) کو، Beating کی نگرانی کے مطابق، xAI نے دو الگ الگ آڈیو API جاری کیے ہیں: Grok Speech to Text اور Grok Text to Speech۔ دونوں Grok Voice، ٹیسلا کے کار سسٹم اور Starlink کسٹمر سروس کے لیے استعمال ہونے والے ایک ہی آڈیو اسٹیک سے ماخوذ ہیں، جنہیں اب الگ الگ endpoint کے طور پر درج کیا گیا ہے تاکہ ڈویلپرز براہ راست آواز پروکسی، ریل ٹائم ٹرانسکرپشن، ایکسیسیبلٹی ٹولز اور پوڈکاسٹ جیسے ایپلیکیشنز میں انہیں شامل کر سکیں۔ STT دو ماڈز فراہم کرتا ہے۔ REST API بڑے آڈیو فائلز کو بیچ میں ٹرانسکرائب کرنے کے لیے استعمال ہوتا ہے، جس کا جواب ملی سیکنڈ میں آتا ہے؛ جبکہ WebSocket API ریل ٹائم آواز اسٹریم کے لیے ہے۔ اس کے ساتھ ساتھ الفاظ کے لحاظ سے ٹائم اسٹیمپ، بولنے والوں کا الگ کرنا (diarization)، متعدد چینلز کی الگ الگ شناخت، اور Inverse Text Normalization جو بولچال میں موجود اعداد، تاریخوں اور مالیات کو معیاری ساختہ متن میں تبدیل کرتا ہے، فراہم کرتا ہے۔ 25 سے زائد زبانوں کو کور کرتا ہے اور مکالمے کے دوران بے رکاوٹ تبدیلی کا خاصہ رکھتا ہے۔ xAI نے الفاظ کی غلطی کی شرح (WER، جس کا عدد کم ہو وہ بہتر) کا ایک موازنہ بھی جاری کیا: مجموعی صورتحال میں Grok 6.9%، ElevenLabs 9.0%، Deepgram 11.0%، AssemblyAI 12.9%؛ "فون کالز میں اشخاص کی شناخت" میں فرق زیادہ واضح ہے، Grok 5.0%، جبکہ باقی تینوں کے لیے 12.0%، 13.5%، اور 21.3% ہیں۔ میٹنگز، ویڈیو پوڈکاسٹس، اور فون کالز جیسے تین عام بزنس سیناریوز میں Grok نے بھی تھوڑا سا فائدہ حاصل کیا۔ یہ اعداد و شمار xAI نے اپنے آپ ٹيسٹ کرکے جاری کئے ہیں، ابھی تک کوئی تھرڈ پارٹی دوبارہ چکانے والی تصدیق نہیں کر چکی۔ قیمت دہرائے جانے والے STT بچھڑنے والے معاملات کے لئے 0.10 امریکی ڈالر فی گھنٹہ، اور سٹرائم کے لئے 0.20 امریکی ڈالر فی گھنٹہ؛ TTS 4.20 امریکی ڈالر فی 100 لاکھ حروف۔ TTS میں ان لائن Speech Tags استعمال کرکے جذبات اور رفتار کو ضابطہ بند کرنے کا خاصہ شامل ہے، جس میں `[laugh]`، `[sigh]`، `[whisper]`، ` شامل ہیں۔ (ذرائع: BlockBeats)
xAI نے 6.9% لفظی خطا کے ساتھ Grok STT اور TTS API جاری کیا
KuCoinFlashبانٹیں






xAI نے 18 اپریل (UTC+8) کو Grok STT اور TTS API جاری کیا، جس کی الفاظ کی غلطی کی شرح 6.9% ہے، جو ElevenLabs، Deepgram اور AssemblyAI سے بہتر ہے۔ API سٹیکس اور ریل ٹائم ٹرانسکرپشن کے لیے REST اور WebSocket کی حمایت کرتے ہیں۔ TTS میں جذباتی اور رhythmic کنٹرول شامل ہیں۔ STT کی قیمت بیچ کے لیے 0.10 ڈالر فی گھنٹہ اور اسٹریمنگ کے لیے 0.20 ڈالر فی گھنٹہ ہے، جبکہ TTS کی قیمت 1 ملین حروف کے لیے 4.20 ڈالر ہے۔ یہ لانچ بڑھتی ہوئی بینک ریٹ کی خبروں اور آن چین خبروں کی سرگرمی کے دوران ہوا۔
ذریعہ:اصل دکھائیں۔
اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔
ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔