
Depuis son lancement, ChatGPT a toujours été reconnu pour écrire des textes ou répondre à des questions. Mais côté images, il traînait un peu la patte avec Dall-E, son générateur d’images qui faisait le job, mais sans vraiment impressionner. C’est fini ! OpenAI a annoncé une nouveauté : Sora, un outil d’image intégré directement dans ChatGPT grâce à GPT-4o, le modèle “omnimodal” qui sait tout faire. Autre bonne nouvelle : tOù es-tu ? :-) le monde peut en profiter, même les utilisateurs gratuits.
Sora : le nouveau moteur visuel de ChatGPT
Avant, pour générer une image, il fallait passer par le site de Sora ou se contenter de Dall-E, qui était limité et parfois brouillon. Maintenant, tout se fait dans l’interface de ChatGPT, et c’est beaucoup plus fluide. Le secret ? GPT-4o, un modèle d’IA capable de jongler avec du texte, des images, du son et même de la vidéo (même si, pour l’instant, Sora se concentre sur les images fixes).

Un des gros progrès, c’est ce qu’on appelle le “binding” en jargon technique. En gros, c’est la capacité de l’IA à ne pas se mélanger les pinceaux quand on lui demande plusieurs choses dans une image. Par exemple, si vous voulez un étoile bleue et un triangle rouge, les anciens modèles pouvaient vous sortir une étoile rouge et zapper le triangle. Sora, lui, peut gérer jusqu’à 15 ou 20 éléments sans se tromper, selon Gabriel Goh, un des chercheurs d’OpenAI. Ça peut sembler technique, mais en pratique, ça veut dire des images qui collent vraiment à ce que vous avez en tête.
Et ce n’est pas tout : le texte dans les images devient enfin lisible. Fini les lettres tordues ou les mots incompréhensibles qu’on voyait souvent avec Dall-E. Que ce soit pour un menu de resto, un poster ou une BD, Sora s’en sort avec brio. Les équipes d’OpenAI ont bossé « des mois » pour peaufiner ça, et même si ce n’est pas encore parfait pour les tout petits caractères, c’est déjà un énorme bond en avant.

Avec Sora, ChatGPT ne se contente plus de dessiner des dessins basiques. Vous pouvez lui demander des trucs plus complexes, comme une expérience scientifique, une bande dessinée avec des personnages cohérents, ou même un logo avec un fond transparent pour vos stickers.
Côté technique, Sora utilise une méthode dite “autorégressive”. Contrairement à Dall-E, qui génère une image d’un coup avec un modèle de diffusion (un peu comme si on jetait de la peinture sur une toile et qu’on ajustait ensuite), Sora “dessine” l’image étape par étape, de gauche à droite et de haut en bas. Ça prend un peu plus de temps – quelques secondes de plus – mais le résultat est plus précis, surtout pour le texte et les détails. Pour OpenAI, ce petit délai vaut le coup vu la qualité obtenue.

Et il y a un bonus : vous pouvez uploader vos propres photos et demander à ChatGPT de les modifier. Par exemple, ajoutez un animal dans un décor de jeu vidéo ou changez la couleur d’un objet. Avec sa “mémoire”, GPT-4o peut garder le fil de vos idées et transformer vos images en quelques clics.
Évidemment, avec un outil aussi puissant, on se pose des questions sur les dérives possibles. OpenAI assure avoir mis des garde-fous solides : pas de deepfakes douteux, pas de suppression de filigranes, et des filtres contre les contenus inappropriés. Les images générées n’ont pas de marque visible, mais elles embarquent des métadonnées (C2PA) pour prouver qu’elles viennent d’OpenAI. C’est pas parfait, mais l’équipe promet d’améliorer ça au fil du temps.
Pour l’instant, Sora est gratuit pour tous les utilisateurs de ChatGPT, même sans abonnement. Les habitués de Dall-E peuvent encore y accéder via un mode spécial, mais Sora le met carrément au placard. À l’avenir, OpenAI prévoit d’intégrer ces avancées dans son API pour les développeurs, et on parle déjà d’un GPT-5 qui pourrait encore repousser les limites.
Retrouvez un résumé du meilleur de l’actu tech tous les matins sur WhatsApp, c’est notre nouveau canal de discussion Frandroid que vous pouvez rejoindre dès maintenant !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix