Tongyi lance Fun-ASR1.5 avec une reconnaissance des dialectes améliorée

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Tongyi a lancé Fun-ASR1.5 le 20 avril, offrant une reconnaissance améliorée des dialectes et désormais disponible via l'API sur Alibaba Cloud BaiLian. Le modèle prend en charge 30 langues, sept grands systèmes de dialectes chinois et plus de 20 accents régionaux. Les tests internes montrent une réduction de 56,2 % du taux d'erreurs par caractère pour les dialectes courants, avec cinq dialectes atteignant plus de 90 % de précision. La reconnaissance de la poésie classique chinoise a atteint 97 % de précision. Le modèle est optimisé pour une utilisation dans l'éducation, les services gouvernementaux et les entretiens. Cette mise à jour d'actualité sur chaîne met en lumière les dernières informations sur les taux d'intérêt dans le développement de l'IA.

Selon les nouvelles de ME, le 20 avril (UTC+8), selon les données de Beating, Tongyi Lab a publié le modèle de reconnaissance vocale Fun-ASR1.5 le 20 avril, qui est désormais disponible en tant qu'API sur Alibaba Cloud BaiLian et en expérience en ligne sur la communauté ModelScope. Selon l'entreprise, cette version utilise un seul modèle pour couvrir 30 langues, les sept grands groupes de dialectes chinois et plus de 20 accents régionaux, sans plus séparer les modèles par dialecte. Les évaluations internes de Tongyi montrent une réduction relative de 56,2 % du taux d'erreurs par caractère dans les scénarios typiques de dialectes par rapport à la version précédente ; cinq dialectes atteignent déjà une précision supérieure à 90 %, et quinze dépassent 80 %. La reconnaissance de poèmes anciens a fait l'objet d'une optimisation spécifique, avec une précision au niveau des caractères de 97 % selon les tests internes de Tongyi. Ces chiffres proviennent uniquement des évaluations internes de Tongyi et ne sont pas issus de benchmarks tiers. Les dialectes chinois les plus difficiles à traiter, souvent négligés, sont désormais intégrés dans une même capacité directement utilisable en production. Pour des scénarios tels que l'enseignement en direct, les lignes d'assistance gouvernementales locales ou la transcription d'interviews, les utilisateurs n'ont plus besoin de déployer plusieurs chaînes de reconnaissance distinctes selon les accents régionaux, ce qui simplifie le déploiement. (Source : BlockBeats)

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.