Après les images et la vidéo, place au son pour l’intelligence artificielle. Les chercheurs en IA de chez Nvidia viennent de créer un « couteau suisse pour le son » permettant à ses utilisateurs de créer littéralement tout ce qui existe et n’a jamais existé.
L’imagination comme seule limite
Nvidia frappe fort avec son nouvel outil. Sur les premières images fournies par l’entreprise, on peut observer une interface simple où l’utilisateur rentre une commande textuelle et obtient un son, une musique ou un bruitage en réponse.
Si l’outil peut paraître classique et faire penser à d’autres comme Sono, Fugatto trouve son originalité dans la possibilité de créer ce qui n’existe pas. Il est par exemple possible de lui demander de créer un son de « saxophone hurlant, puis aboyant sur de la musique électronique avec des chiens aboyants ». Si le résultat de la demande peut ne pas plaire, il a le mérite d’ouvrir le champ des possibles.
À côté de cela, Fugatto présente des outils plus classiques, mais tout aussi efficace. Il est capable de créer un extrait musical sur la base d’une commande textuelle, d’ajouter ou de supprimer des instruments sur une piste audio ou bien de modifier l’accent ou l’émotion d’une voix.
Avec une telle précision dans la réponse, il y a fort à parier que sans contrôle, cette nouvelle technologie risque de provoquer de nouveaux remous chez les professionnels du son et de la voix.
Comment ça marche ?
Pour concevoir cet outil, Nvidia indique s’être basé sur des travaux antérieurs de leurs équipes dans des domaines allant de la modélisation de la parole en passant par le vocodage audio.
Ars Technica précise que Nvidia a travaillé sur une série de collections d’audio en open source représentant au moins 50 000 heures d’audio. Là-dessus, Nvidia a pu constituer un modèle avec 2,5 milliards de paramètres permettant à Fugatto de choisir la meilleure option possible. Pour affiner encore plus leur modèle, Nvidia indique s’est entourée d’un groupe de chercheurs provenant de l’Inde, du Brésil, de la Chine, de Jordanie et de la Corée du Sud.
Pour le moment, Nvidia n’a pas communiqué de date de sortie pour cet outil, mais il est possible pour les férus d’audio de se plonger dans la documentation de Fugatto disponible sur leur Github.
Chaque matin, WhatsApp s’anime avec les dernières nouvelles tech. Rejoignez notre canal Frandroid pour ne rien manquer !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix