Google a lancé le 6 avril sur iOS une application expérimentale d'entrée vocale nommée Google AI Edge Eloquent, mettant en avant son fonctionnement hors ligne et son affinage intelligent du texte. L'application intègre les modèles ASR Gemma4 développés en interne (spécifications E2B/E4B), permettant la conversion vocale locale en texte, le filtrage automatique des mots de remplissage et la correction des répétitions, ainsi que quatre styles de texte : synthétique, formel, concis et complet. Les utilisateurs peuvent activer en option le modèle Gemini en nuage pour un nettoyage approfondi et importer leurs contacts Gmail ainsi que des termes spécifiques pour créer un lexique personnalisé. L'application est actuellement gratuite et sans abonnement, se distinguant nettement de son concurrent SuperWhisper, qui coûte 85 $ par an. Une version Android est prévue en développement et intégrera à l'avenir la clavier système et des fonctionnalités flottantes. Cette initiative marque une mise en œuvre concrète de Google dans le domaine du traitement vocal sur appareil边缘, démontrant la capacité des modèles Gemma à être déployés de manière légère sur mobile.
Auteur et source de l'article : AIBase
Le 6 avril (lundi), heure locale, Google a discrètement lancé sur la plateforme iOS une application expérimentale appelée « Google AI Edge Eloquent ». Cette application met l'accent sur l'approche « hors ligne en priorité » et le « raffinement intelligent », visant à utiliser les technologies d'IA en périphérie pour transformer en temps réel la parole naturelle en texte professionnel et concis. Cette initiative marque le passage officiel de Google dans le segment haut de gamme de la conversion voix-texte par IA, dominé actuellement par Wispr Flow et SuperWhisper.
Technologies et fonctionnalités clés :
Eloquent intègre le dernier modèle de reconnaissance vocale automatique (ASR) de Google, la série Gemma4 (spécifications E2B/E4B). Ce modèle prend en charge un fonctionnement entièrement hors ligne ; après téléchargement du package du modèle, les utilisateurs peuvent effectuer une transcription locale, garantissant ainsi une meilleure protection de la vie privée et une réduction de la latence. L'application dispose d'une fonctionnalité avancée de « nettoyage intelligent » qui identifie et filtre automatiquement les mots de remplissage tels que « euh » et « hein », ainsi que les répétitions et corrections, pour produire un texte logique et fluide.
Intégration et interaction approfondies du produit :
- Conversion de style multimodal : propose quatre modes de traitement de texte : « points clés », « formel », « court » et « complet ».
- Coordination cloud (facultatif) : après activation du mode cloud, l'application utilisera le modèle Gemini en cloud pour un nettoyage approfondi du texte.
- Contexte personnalisé : Prend en charge l'importation de mots-clés, noms et termes spécifiques à l'utilisateur depuis Gmail, et permet de créer un lexique personnalisé.
- Statistiques de productivité : affichage en temps réel du nombre de mots dictés, de la vitesse en mots par minute (WPM) et de l'historique des sessions.
Stratégie de marché et planification future :
L'application est actuellement disponible gratuitement sur l'App Store iOS, sans abonnement ni restriction d'utilisation, ce qui constitue une forte concurrence par rapport à des produits concurrents comme SuperWhisper, qui coûte 85 $ par an. Bien que lancée initialement sur iOS, la description officielle confirme le développement d'une version Android et annonce la prise en charge de l'intégration du clavier système ainsi que des boutons flottants similaires à ceux de Wispr Flow. En tant que membre important de la marque Google AI Edge, le lancement d'Eloquent ne se limite pas à une simple application outil, mais constitue un cas d'utilisation emblématique démontrant la capacité de Google à déployer le modèle Gemma sur appareil mobile.
