Plus vrai que vrai. Au rayon des prouesses rendues possibles par une intelligence artificielle, OpenAI est sans doute en train de devenir l’un des fers de lance du secteur et ne cesse de bluffer les observateurs.
En 2015, Elon Musk participait à la fondation de cet organisme consacré à l’intelligence artificielle. Ce même organisme auquel on doit notamment un outil baptisé GPT-3 (Generative Pre-trained Transformer), outil capable de générer des écrits semblables à ceux d’un être humain. Il est aussi derrière une IA multimodale du nom de DALL-E (combinaison de l’artiste Salvador Dalí et du personnage Disney Wall-E) qui peut générer des images à partir d’une simple description (par exemple, « tortue en pâte à modeler »).
À peine un an après le lancement de DALL-E, la société a annoncé une nouvelle version du programme qui disposera désormais d’une résolution de sortie plus élevée ainsi que d’une latence réduite, avec de nouvelles fonctionnalités comme l’édition d’images préexistantes.
D’une simple description à l’image
La première version de DALL-E permettait de générer des images, d’en combiner plusieurs, mais aussi de fournir différentes perspectives d’une même image ou encore de déduire des éléments comme la présence d’ombres à partir d’une simple description.
4 mois d’abonnements offerts, un bloqueur de pub intégré et des serveurs parmi les plus rapides du marché : c’est Noël chez Surfshark ! L’abonnement à ce VPN est à seulement 1,99 € /mois !
Pour ce faire, elle reprenait l’approche utilisée par GTP-3 sur le langage et l’appliquait à la production d’images en comprimant celles-ci en une série de mots pour apprendre par la suite à prédire ce qui allait survenir.
Pour y arriver, les descriptions devaient être intégrées sans ambiguïté et avec tous les détails nécessaires, même si l’IA était tout de même capable de combler certaines zones d’ombres par elle-même lorsque la légende le requérait.
À l’époque, OpenAI déclarait travailler sur ce système tout en s’intéressant aux dangers potentiels que pourrait causer un tel outil afin d’établir une certaine politique de contenu.
Dans quel but et avec quelles limitations ?
DALL-E n’a jamais été conçu dans l’intention de devenir un produit commercial. Ces capacités ont donc été limitées, car le programme est considéré comme un outil de recherche avant tout afin d’éviter tout problème potentiel tel que la désinformation.
Les images pouvant choquer sont de facto retirées des données d’entrainement du logiciel et un filigrane IA est automatiquement appliqué sur les images générées. De plus, le système empêche l’obtention d’images basées sur des noms spécifiques (impossible donc d’avoir un résultat si l’on entre « Emmanuel Macron qui fait le poirier sur les marches de l’Élysée » par exemple).
DALL-E 2 : encore plus de possibilités dans l’image créée
L’une des nouveautés de DALL-E 2 est de laisser la possibilité aux utilisateurs d’utiliser une fonctionnalité appelée l’inpainting pour venir sélectionner et modifier certaines zones spécifiques d’images existantes, puis éventuellement ajouter ou supprimer des éléments ainsi que leurs ombres. Il est également possible de fusionner deux images ou encore d’utiliser la fonctionnalité Variations pour générer des versions différentes d’une image existante. Le logiciel est en outre capable de générer des images carrées de 1024 px contre 256 précédemment.
DALL-E 2 utilise ici la technologie de reconnaissance d’images CLIP développée par OpenAI : un système permettant de résumer le contenu d’une image comme le ferait un être humain afin d’identifier les détails les plus importants. Cela améliore le processus de prédiction et permet d’obtenir des images avec plus de réalisme.
À qui se destine cette technologie ?
Cette nouvelle version n’est actuellement disponible en test que pour des partenaires agréés, qui sont eux-mêmes limités quant à ce qu’ils peuvent produire. Il est notamment interdit pour ces utilisateurs de produire des images qui ne seraient pas « family friendly », ce qui comprend des interdictions concernant la nudité, les obscénités, les symboles de haine, le conspirationnisme et d’autres sujets sensibles.
Les testeurs n’ont pas non plus le droit d’exporter les images générées vers une plateforme tierce pour le moment. Mais OpenAI espère tout de même ajouter ultérieurement les fonctionnalités de DALL-E 2 aux API du groupe de sorte à pouvoir alimenter des applications tierces, probablement lorsque le projet sera bien ficelé.
Pour avoir une chance d’utiliser cette technologie pour le moment, il faudra s’inscrire sur la liste d’attente du site d’OpenAI et croiser les doigts.
Votre café et votre dose de tech vous attendent sur WhatsApp chaque matin avec Frandroid.
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix