L’IA de Google peut reconstituer un visage à partir d’une image de 64 pixels

 
Le projet Google Brain a mis au point un système capable de recréer une image à partir d’un amas de pixels où il est normalement impossible de distinguer quoi que ce soit. Les résultats ne sont pas encore parfaits, mais ils sont déjà bluffants.

Aux États-Unis, il suffit de 40 minutes aux enquêteurs pour trouver les coupables d’un crime. Enfin, c’est ce que nous font croire les films et séries policiers qui nous viennent du pays de l’Oncle Sam. On a tous déjà entendu une phrase de ce genre : « Zoomez dans l’image. Optimisez cette partie. Oh, regardez, on voit le visage du coupable dans le reflet du rétroviseur ! »

Mais soyons un peu sérieux. La définition d’une image ne peut pas être améliorée. C’est en tout cas ce que l’on était en droit de penser jusqu’à aujourd’hui. Sauf que le projet Google Brain, dédié à l’amélioration de l’intelligence artificielle par le biais de l’apprentissage profond (deep learning), a peut-être trouvé le moyen de rendre réelle la fiction hollywoodienne.

Pousser le concept jusqu’au bout

Rappelons que les recherches de Google dans le domaine permettent déjà d’améliorer la qualité d’une photo de manière bluffante. Sauf que le concept a été poussé encore plus loin. Il s’agit désormais de reconstituer une image reconnaissable à partir d’un amas de pixels dans lequel l’œil humain ne distingue absolument rien.

Regardez sur l’illustration ci-dessous, les images de gauche en 8×8 (64 pixels) sont celles que doit traiter l’intelligence artificielle, celles du centre sont générées par la machine, en 32×32 (1024 pixels). Et à titre de comparaison, les images de droite sont les originales. On peut donc voir que le résultat n’est pas parfait.

En effet, les visages générés par l’IA sont plutôt crédibles, mais ils restent différents des versions originales en 32×32 pixels. Néanmoins, malgré ces imperfections, les résultats obtenus sont vraiment incroyables. Mais la manière dont Google Brain réussit à les obtenir l’est tout autant.

Deux réseaux de neurones

Deux réseaux de neurones sont exploités. Le premier cherche d’abord des similitudes entre l’image à 64 pixels et d’autres photos de meilleure qualité. Pour cela, il va réduire la définition de ces dernières à 8×8. Cela lui permet de comparer plus facilement les photos de base et celles qu’il a en stock. Il va ainsi combiner les images qui correspondent

Le deuxième réseau de neurones, quant à lui, pioche dans une grande banque de données — dans cet exemple il s’agit de photos de célébrités et de chambres à coucher. Grâce à celle-ci, il est capable de créer artificiellement des éléments de bonne qualité et de les ajouter artificiellement des éléments dans l’image de 8×8.

Par exemple, s’il détecte un pixel noir dans un coin supérieur, il va pouvoir supposer qu’il s’agit d’un sourcil noir grâce à la banque de données sur laquelle il se base. Dans le détail, l’intelligence artificielle utilise une implémentation PixelCNN pour réaliser cette opération complexe.

Concrètement, on peut estimer qu’il sera bientôt possible de faire comme Les Experts et tous les autres policiers fictifs très bien caricaturés dans cette vidéo :

Si vous souhaitez en savoir plus sur le fonctionnement des intelligences artificielles, vous pouvez consulter notre dossier dédié au sujet.

Pour aller plus loin
Comment le machine learning compte-t-il révolutionner notre quotidien ?


Des invités passionnants et des sujets palpitants ! Notre émission UNLOCK est à retrouver un jeudi sur deux en direct, de 17 à 19h sur Twitch. Pensez aussi aux rediffusions sur YouTube !

Les derniers articles