Google va générer des images encore plus réussies pour se frotter à DALL-E et Midjourney

 

Google a fait le plein d'annonces lors de sa conférence Google I/O qui s'est déroulée ce mardi 14 mai. Parmi elles, Imagen 3 : la toute dernière évolution de son modèle de génération d'images. Meilleure en interprétation et plus précises, elle peut produire des images encore plus réalistes.

Source : Montage Frandroid

Après Imagen, il y a eu Imagen 2, puis Imagen 3 : Google continue d’itérer son modèle de génération d’images. La firme a en effet officialisé la troisième version d’Imagen lors de sa conférence Google I/O en direct de San Francisco ce 14 mai. Parmi les annonces, Google a par exemple présenté Ask Photos, une fonctionnalité de Google Photos utilisant Gemini.

Quels sont les progrès apportés par Imagen 3 ?

Google présente Imagen 3 comme son modèle de génération d’images à partir de texte le plus performant, tant en termes de qualité qu’en termes de niveau de détail. La promesse : des images photoréalistes/réalistes, et surtout « moins d’artefacts visuels gênants » par rapport à Imagen 2 notamment. Autre progrès très important : la génération de texte. En fait, les générateurs d’images sont conceptuellement incapables de comprendre qu’une lettre en est une : alors représenter des mots, c’est très compliqué. Google annonce grandement avoir amélioré les capacités de dessin de texte de son modèle.

Imagen 3 présenté lors de la Google I/O 2024 // Source : google

La firme explique ces progrès par le fait qu’Imagen 3 est meilleur en interprétation du langage, et « comprend » davantage l’intention derrière un prompt, notamment parce qu’il prend plus en compte les détails dans les messages plus longs.

Une image générée avec Imagen 3 et son « prompt » // Source : Google

Comme pour Imagen 2, Imagen 3 n’est utilisable qu’en anglais. Une IA disponible pour certains créateurs dans ImageFX, l’un des outils d’IA expérimentaux disponibles sur l’AI Test Kitchen de Google. Ce dernier précise qu’Imagen 3 sera prochainement disponible sur Vertex AI, sa solution pour Google Cloud.

Quels usages et quelles intégrations pour cet énième générateur d’images ?

Des générateurs d’images, même gratuits, il y en a un peu partout, bien qu’ils ne soient pas forcément tous intégrés dans les applications que nous utilisons. Le plus avancé, c’est sans doute Microsoft, avec son Copilot. Du côté de Google, Imagen 2 ne peut être utilisé que dans ImageFX, un outil expérimental disponible (de manière restreinte) sur son AI Test Kitchen.

Imagen 3 utilisable dans ImageFX // Source : Google

Parmi les usages imaginés par Google, il y a la possibilité de « générer des messages d’anniversaire personnalisés, des diapositives de titre dans les présentations » notamment. Et dans les intégrations, Gemini permet depuis quelques mois de générer des images, ce qui n’a pas été sans conséquences en matière de diversité. On sait par ailleurs que Google travaille à intégrer un générateur d’images dans Google Messages, via son chatbot Gemini.

Espérons que ces outils arrivent en France, puisqu’en raison des législations européennes, Google se retrouve en difficulté pour un déploiement sur le Vieux Continent.


Envie de rejoindre une communauté de passionnés ? Notre Discord vous accueille, c’est un lieu d’entraide et de passion autour de la tech.

Les derniers articles