ME समाचार के अनुसार, 18 अप्रैल (UTC+8), Beating द्वारा निगरानी के अनुसार, xAI ने दो स्वतंत्र ऑडियो API लॉन्च किए: Grok Speech to Text और Grok Text to Speech। ये दोनों Grok Voice, Tesla के वाहन प्रणाली और Starlink कस्टमर सपोर्ट को संचालित करने वाले एक ही ऑडियो स्टैक से आते हैं, और अब इन्हें स्वतंत्र endpoint के रूप में विकासकर्ताओं के लिए उपलब्ध कराया गया है, जिससे वे सीधे वॉइस एजेंट, रियल-टाइम ट्रांसक्रिप्शन, एक्सेसिबिलिटी टूल्स और पॉडकास्ट जैसे एप्लिकेशन में एकीकृत कर सकते हैं। STT दो मोड प्रदान करता है। REST API बड़े ऑडियो फ़ाइलों के बैच ट्रांसक्रिप्शन के लिए है, जो मिलीसेकंड में प्रतिक्रिया देता है; WebSocket API रियल-टाइम ऑडियो स्ट्रीम के लिए है। साथ ही, शब्द-स्तरीय समय-स्टैम्प, स्पीकर डायरीजेशन, मल्टी-चैनल पहचान, और Inverse Text Normalization (जो बोलचाल के अंक, तारीखों, मुद्रा को स्वचालित रूप से संरचित पाठ में परिवर्तित करता है) समर्थित हैं। 25 से अधिक भाषाओं का समर्थन है, और संवाद के दौरान बिना किसी बाधा के स्विच किया जा सकता है। xAI ने शब्द त्रुटि दर (WER, कम मान बेहतर) की एक सेट की तुलना प्रकाशित की: समग्र परिदृश्य में Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; "फोन कॉल एंटिटी रिकग्निशन" में अंतर अधिक स्पष्ट है, Grok 5.0%, संबंधित तीनों क्रमशः 12.0%, 13.5%, 21.3%। मीटिंग, वीडियो पॉडकास्ट, और फोन के तीन सामान्य व्यवसायिक परिदृश्यों में Grok सभी में हल्का लीड है। ये संख्याएँ xAI द्वारा स्वयं परीक्षण करके प्रकाशित की गई हैं, अभी तक कोई तीसरा पक्ष पुष्टि नहीं कर सका है। मूल्यनिर्धारण के संदर्भ में, STT के बैच प्रोसेसिंग के लिए 0.10 USD/घंटा, स्ट्रीमिंग के लिए 0.20 USD/घंटा; TTS 4.20 USD/100 लाख वर्ण। TTS में In-line Speech Tags का उपयोग करके भावना और प्रवाह को नियंत्रित किया जा सकता है, उदाहरण के लिए `[laugh]`, `[sigh]`, `[whisper]`, ` (स्रोत: BlockBeats)
xAI ने 6.9% शब्द त्रुटि दर के साथ Grok STT और TTS APIs लॉन्च किए
KuCoinFlashसाझा करें






xAI ने 18 अप्रैल (UTC+8) को Grok STT और TTS APIs जारी किए, जिनकी शब्द त्रुटि दर 6.9% है, जो ElevenLabs, Deepgram और AssemblyAI से बेहतर है। ये APIs REST और WebSocket के माध्यम से बैच और रियल-टाइम ट्रांसक्रिप्शन को सपोर्ट करते हैं। TTS में भावनात्मक और तालबद्ध नियंत्रण शामिल हैं। STT की कीमत बैच के लिए $0.10/घंटा और स्ट्रीमिंग के लिए $0.20/घंटा है, जबकि TTS की कीमत $4.20 प्रति 1 मिलियन वर्ण है। यह लॉन्च बढ़ती ब्याज दरों के समाचारों और बढ़ती ऑन-चेन समाचार गतिविधि के बीच हुआ है।
स्रोत:मूल दिखाएं
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।