Gboard : la reconnaissance vocale s’améliore et fonctionne hors-ligne, mais pas pour tous

 
Le système de transcription vocale du clavier Gboard s’améliore, grâce à un réseau neuronal directement intégré aux téléphones. Des améliorations qui restent malheureusement réservées aux utilisateurs de Pixel avec un clavier anglais.

Alors qu’auparavant un accès internet était nécessaire à Gboard pour retranscrire la voix en texte, ce n’est maintenant plus le cas. Dans une publication du blog Google AI, les membres cette division dévoilent les nouveautés apportées au clavier de Google. Des nouveautés qui restent pour l’instant réservées aux utilisateurs de Google Pixel avec un clavier anglais. Nul doute que l’on devrait les retrouver sur plus d’appareils à l’avenir.

Une reconnaissance vocale intégrée aux téléphones

Les ingénieurs de Google ont réussi à compresser et intégrer un réseau neuronal destiné à transcrire un signal physique — ici la voix –, en signal numérique. Cette technologie se nomme RNN-T, et permet de diminuer la taille des modèles utilisés pour la transcription : ils sont passés de 2 Go à 80 Mo.

Une réduction conséquente, qui va permettre aux téléphones d’être directement équipés de cette fonctionnalité. D’habitude, il fallait être connecté à Internet pour envoyer l’enregistrement sonore aux serveurs de Google qui en faisait une transcription et la renvoyait au téléphone. Un aller-retour d’informations qui prend du temps, et augmente le risque d’interception des données.

Une transcription plus fluide

La transcription actuelle est plutôt hachée : même si elle reconnaît bien ce que l’on dit, les mots apparaissent par groupe de 3 ou 4 et sont bien loin de simuler un flot fluide de paroles. La faute à des données qui jouent au yo-yo entre le téléphone et les serveurs de Google.

En s’intégrant directement au téléphone, la transcription est plus fluide. Les mots s’affichent les uns après les autres et collent bien mieux au rythme de nos paroles. C’est en tout cas ce que montre ce GIF partagé par les équipes de Google afin de montrer la différence entre ancienne et nouvelle transcriptions.

C’est avec toutes les données dont Google dispose grâce à ses utilisateurs que des fonctionnalités comme celles-ci sont aussi efficaces. La firme de Mountain View a maintenant l’habitude d’intégrer du machine learning dans bon nombre de ses services, comme pour la navigation en réalité augmentée de Google Maps très récemment, et cela lui réussit.

Pour aller plus loin
Google Maps : la navigation en réalité augmentée est disponible, nous l’avons testée


Des invités passionnants et des sujets palpitants ! Notre émission UNLOCK est à retrouver un jeudi sur deux en direct, de 17 à 19h sur Twitch. Pensez aussi aux rediffusions sur YouTube !

Les derniers articles