En ce début d’année 2023, la tendance est indéniablement à l’intelligence artificielle et aux outils de génération automatique. Du côté de Microsoft, l’entreprise a créé son propre DALL-E 2, et voudrait intégrer ChatGPT dans Bing pour concurrencer Google. Aussi, Microsoft souhaiterait investir 10 milliards de dollars dans OpenAI pour intégrer les outils d’IA dans la suite Office. Un début d’année chargé qui n’est pas terminé : avec Vall-E, Microsoft peut reproduire la voix humaine à partir de seulement trois secondes d’enregistrement.
Vall-E : l’intelligence artificielle de Microsoft qui peut reproduire une voix
Il y a quelques jours, Microsoft a publié un article scientifique présentant « une approche de modélisation du langage pour la synthèse de texte en parole ». Un outil de synthèse vocale qui ne transforme pas simplement du texte en une voix robotique créée de toutes pièces, mais en une voix crée à partir d’une voix humaine et réelle. Les développeurs disent avoir entraîné leur modèle durant 60 000 heures en anglais. Selon eux, ce sont « des centaines de fois plus que les systèmes existants ».
Avec ses capacités, Vall-E « peut être utilisé pour synthétiser une parole personnalisée de haute qualité avec seulement un enregistrement de 3 secondes d’un locuteur inconnu comme guide acoustique ». Des mots peuvent donc être prononcés par une voix sans que celle-ci ne les ait jamais prononcés. En plus de ça, l’outil « peut préserver l’émotion du locuteur et l’environnement acoustique de l’invité acoustique dans la synthèse ».
Évidemment, plus les échantillons sont nombreux, plus la voix recrée est précise. Si les enregistrements générés et publiés par Microsoft ne sont pas tous convaincants, ils l’ont été avec trois secondes d’enregistrement. Avec davantage d’échantillons, on peut imaginer que l’IA soit plus performante.
À quoi peut servir cette synthèse vocale de reproduction ?
Dans la présentation de Vall-E, certains usages possibles ont été détaillés : « VALL-E permet directement diverses applications de synthèse vocale, telles que le TTS (text-to-speech, texte à voix en français), l’édition vocale et la création de contenus, en combinaison avec d’autres modèles d’IA générative comme GTP-3 ».
Cependant, Vall-E pourrait être utilisé à des fins moins honnêtes. Depuis plusieurs années, la technologie deep fake se démocratise : elle consiste à modifier des vidéos ou des images pour accoler le visage d’une personne sur un corps qui ne lui appartient pas, dans le but de tromper. Si pour le moment Vall-E n’est pas disponible, Microsoft n’a rien mis en place pour empêcher ces problèmes.
Les développeurs imaginent que « les modèles d’édition de la parole devraient être accompagnés de composants pertinents, notamment le protocole permettant de s’assurer que le locuteur accepte d’exécuter la modification et le système permettant de détecter la parole éditée ».
Si l’outil existe et si les démonstrations sont encourageantes, le plus grand défi de Microsoft n’est pas technique, mais éthique. Les personnalités publiques, dont certaines sont déjà victimes de deep fakes, pourraient être les plus impactées naturellement. D’ailleurs, on peut imaginer que Vall-E soit utilisé en complément d’un outil de deep fake vidéo, pour créer de fausses vidéos scandaleuses.
Aussi, Vall-E pourrait très bien être utilisé pour usurper l’identité d’une personne au téléphone. Comme pour les artistes avec les IA de génération automatique d’images, l’outil de Microsoft pourrait mettre en danger les emplois de plein de personnes : les professionnels de la voix off, du doublage, etc.
Tout le monde se lance dans la course à l’IA générative
Dans le même temps, d’autres outils de génération automatique sont en développement. Il y a quelques semaines, OpenAI, la société à l’origine de ChatGPT, présentait Point-E, un outil de génération de modèles 3D. Microsoft est loin d’être le seul GAMAM de la partie, puisque Meta arrive à créer des vidéos à partir de texte et que Google met les bouchées doubles pour développer des outils à partir d’IA.
Apple est même allé plus loin puisque l’entreprise commercialise une série de livres audio avec un narrateur artificiel, généré par IA. Dans le jeu vidéo High On Life, un personnage a même été doublé par une IA.
Pour aller plus loin
On a posé 8 questions tech à ChatGPT : une IA bluffante, mais pas sans limites
Retrouvez un résumé du meilleur de l’actu tech tous les matins sur WhatsApp, c’est notre nouveau canal de discussion Frandroid que vous pouvez rejoindre dès maintenant !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix