En janvier dernier, Microsoft dévoilait Vall-E : un modèle d’IA permettant de reproduire une voix à partir de trois secondes d’enregistrement. Quelques mois plus tard, c’est un nouveau modèle que présente la firme, qui se veut plus ubiquiste. Baptisé SpeechX, Microsoft prévoit déjà plusieurs usages pour cette intelligence artificielle spécialisée dans la voix.
SpeechX : cet outil qui peut (presque) tout faire avec la voix
C’est sur la section dédiée à la recherche du site de Microsoft que l’on découvre SpeechX, dans une page mise en ligne ce 14 août. On apprend qu’il s’agit d’un « modèle polyvalent de génération de la parole qui s’appuie sur des messages audio et textuels. » Pour sa création, il a été entraîné sur 60 000 heures de données audio. Pour Microsoft, « les modèles existants sont encore limités dans la gestion de diverses tâches de génération », notamment dans des mauvaises conditions acoustiques.
Les usages pensés par Microsoft sont pluriels. L’entreprise mentionne le text-to-speech (autrement dit la génération de voix à partir de texte), la suppression du bruit ambiant, l’extraction d’une voix d’un locuteur ciblé, la suppression et l’édition de la parole (la voix cible peut être modifiée en préservant le reste d’une piste audio).
Des démonstrations assez impressionnantes de l’IA de Microsoft
Sur la page dédiée à SpeechX toujours, Microsoft a publié quelques démonstrations. On a par exemple le cas du text-to-speech, où SpeechX reproduit une voix à partir de trois secondes d’enregistrement, comme Vall-E, en changeant les mots. Puis, Microsoft a fait prononcer à ces voix les mêmes phrases que son IA, afin d’avoir la comparaison. Même sans cette dernière, les résultats sont assez impressionnants : si l’on considère que la qualité audio est mauvaise, on peut passer outre l’aspect quelque peu robotique des voix générées. En ayant la comparaison, ça saute aux oreilles, mais sans, c’est moins le cas.
Là où c’est d’autant plus fourbe, c’est dans le cas d’une modification en pleine phrase. SpeechX est capable de remplacer quelques mots au sein d’une phrase prononcée. Dans ce cas, la voix artificielle est camouflée par la voix naturelle et on peine vraiment à faire la différence entre les deux. Même chose pour les mots mal prononcés. Quant à la suppression du bruit ambiant, les démonstrations publiées semblent moins performantes que RTX Voice, l’équivalent chez Nvidia. Son rival AMD a d’ailleurs une technologie similaire sur ses cartes graphiques.
Pour aller plus loin
Voix générées par l’IA : les comédiens français tirent la sonnette d’alarme
Microsoft n’est pas le seul à travailler sur des IA spécialisées dans l’audio : par exemple, Meta a présenté il y a quelques mois Voicebox, un outil capable de traduire sa voix dans une autre langue. Du côté d’Apple, on utilise déjà l’IA pour lire des livres audio.
Utilisez-vous Google News (Actualités en France) ? Vous pouvez suivre vos médias favoris. Suivez Frandroid sur Google News (et Numerama).
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix