3 secondes d'enregistrement suffisent à cette IA de Microsoft pour copier votre voix

C’est le branle-bas de combat chez Microsoft sur l’intelligence artificielle : la firme a développé un outil nommé « Vall-E » qui permet de créer des répliques de voix à partir d’un enregistrement de trois secondes. En plus de simplement reproduire une voix, cette IA peut reproduire les émotions.

Source : Turag Photography via Unsplash

En ce début d’année 2023, la tendance est indéniablement à l’intelligence artificielle et aux outils de génération automatique. Du côté de Microsoft, l’entreprise a créé son propre DALL-E 2, et voudrait intégrer ChatGPT dans Bing pour concurrencer Google. Aussi, Microsoft souhaiterait investir 10 milliards de dollars dans OpenAI pour intégrer les outils d’IA dans la suite Office. Un début d’année chargé qui n’est pas terminé : avec Vall-E, Microsoft peut reproduire la voix humaine à partir de seulement trois secondes d’enregistrement.

Vall-E : l’intelligence artificielle de Microsoft qui peut reproduire une voix

Il y a quelques jours, Microsoft a publié un article scientifique présentant « une approche de modélisation du langage pour la synthèse de texte en parole ». Un outil de synthèse vocale qui ne transforme pas simplement du texte en une voix robotique créée de toutes pièces, mais en une voix crée à partir d’une voix humaine et réelle. Les développeurs disent avoir entraîné leur modèle durant 60 000 heures en anglais. Selon eux, ce sont « des centaines de fois plus que les systèmes existants ».

Le schéma du fonctionnement de Vall-E // Source : Microsoft

Avec ses capacités, Vall-E « peut être utilisé pour synthétiser une parole personnalisée de haute qualité avec seulement un enregistrement de 3 secondes d’un locuteur inconnu comme guide acoustique ». Des mots peuvent donc être prononcés par une voix sans que celle-ci ne les ait jamais prononcés. En plus de ça, l’outil « peut préserver l’émotion du locuteur et l’environnement acoustique de l’invité acoustique dans la synthèse ».

Évidemment, plus les échantillons sont nombreux, plus la voix recrée est précise. Si les enregistrements générés et publiés par Microsoft ne sont pas tous convaincants, ils l’ont été avec trois secondes d’enregistrement. Avec davantage d’échantillons, on peut imaginer que l’IA soit plus performante.

À quoi peut servir cette synthèse vocale de reproduction ?

Dans la présentation de Vall-E, certains usages possibles ont été détaillés : « VALL-E permet directement diverses applications de synthèse vocale, telles que le TTS (text-to-speech, texte à voix en français), l’édition vocale et la création de contenus, en combinaison avec d’autres modèles d’IA générative comme GTP-3 ».

Cependant, Vall-E pourrait être utilisé à des fins moins honnêtes. Depuis plusieurs années, la technologie deep fake se démocratise : elle consiste à modifier des vidéos ou des images pour accoler le visage d’une personne sur un corps qui ne lui appartient pas, dans le but de tromper. Si pour le moment Vall-E n’est pas disponible, Microsoft n’a rien mis en place pour empêcher ces problèmes.

Les développeurs imaginent que « les modèles d’édition de la parole devraient être accompagnés de composants pertinents, notamment le protocole permettant de s’assurer que le locuteur accepte d’exécuter la modification et le système permettant de détecter la parole éditée ».

Un schéma explicatif à propos de Dall-E // Source : OpenAI

Si l’outil existe et si les démonstrations sont encourageantes, le plus grand défi de Microsoft n’est pas technique, mais éthique. Les personnalités publiques, dont certaines sont déjà victimes de deep fakes, pourraient être les plus impactées naturellement. D’ailleurs, on peut imaginer que Vall-E soit utilisé en complément d’un outil de deep fake vidéo, pour créer de fausses vidéos scandaleuses.

Aussi, Vall-E pourrait très bien être utilisé pour usurper l’identité d’une personne au téléphone. Comme pour les artistes avec les IA de génération automatique d’images, l’outil de Microsoft pourrait mettre en danger les emplois de plein de personnes : les professionnels de la voix off, du doublage, etc.