Google sort l’artillerie lourde : Veo 2, Imagen 3 et Whisk pour contrer OpenAI

Google contre-attaque

 
Google vient de dégainer ses nouvelles armes : Veo 2 pour la vidéo, Imagen 3 pour l’image, et Whisk pour la création interactive.

Dans un timing qui ne doit rien au hasard, Google dévoile ses nouvelles armes dans la guerre de l’IA générative.

Car oui, OpenAI enchaîne les annonces depuis une semaine, et a même fait les gros titres avec Sora, le géant de Mountain View contre-attaque donc avec Veo 2, Imagen 3 et Whisk.

Veo 2, l’arme anti-Sora

Veo 2 est dédié à la vidéo. Le modèle peut générer des vidéos en 4K sur plusieurs minutes, une prouesse technique qui dépasse les capacités actuelles de Sora.

Cette nouvelle génération met l’accent sur la physique du monde réel et les nuances du mouvement humain. Et clairement, Google semble avoir une approche plus mature de la génération de vidéos que Sora d’Open AI.

L’une des avancées les plus mises en avant par Google, sur Veo 2, réside dans sa capacité à réduire les « hallucinations », ces erreurs typiques des IA génératives comme l’apparition de doigts supplémentaires.

Google met aussi l’accent sur la sécurité et le marquage. Les contenus générés par ce modèle sont estampillés d’un filigrane SynthID invisible pour les marquer comme générées par l’IA.

Veo 2 est actuellement disponible via VideoFX dans Google Labs, disponible via VPN en France. Une extension à YouTube Shorts et à d’autres produits est prévue en 2025.

Imagen 3 : la génération de photos s’améliore

Imagen 3, équivalent à DALL-E chez OpenAI, est dédiée à la génération d’images. Le modèle excelle désormais dans la reproduction de styles artistiques variés, du photoréalisme à l’anime, tout en offrant une meilleure fidélité aux prompts.

Source : Google

Prompt : une gare européenne brumeuse des années 1940 à l’aube, encadrée par des arches en fer forgé complexes et des vitres embuées. De la vapeur s’élève des voies, se mêlant à un épais brouillard. Deux amoureux se tiennent dans une étreinte émotionnelle près du train, rétroéclairé par la lueur chaude et ambrée de lanternes tamisées. Le train en partance est partiellement visible, ses feux arrière rouges se fondant dans la brume. La femme porte un manteau rouge délavé et serre dans ses mains un petit agenda en cuir, tandis que l’homme est vêtu d’un uniforme de soldat patiné. Des grains de poussière flottent dans l’air, éclairés par le doux rétroéclairage doré. L’atmosphère est mélancolique et intemporelle, évoquant l’adieu doux-amer du cinéma de guerre.

Cette polyvalence stylistique s’accompagne d’une amélioration de la qualité globale des images, notamment en termes de luminosité et de composition.

Source : Google

Prompt : portrait d’une femme asiatique avec des lumières vertes au néon en arrière-plan, faible profondeur de champ.

Imagen 3 est désormais disponible dans plus de 100 pays via ImageFX dans Google Labs. Il faudra passer par un VPN, puisque ImageFX n’est pas disponible en France.

Les meilleurs VPN du moment

Tous les meilleurs VPN

Whisk combine Imagen 3 avec Gemini

Whisk, leur nouvelle expérience, combine intelligemment Imagen 3 avec les capacités de Gemini pour la compréhension visuelle. C’est ce que l’on appelle de l’intégration verticale.

Gemini crée automatiquement des légendes, qui sont ensuite utilisées par Imagen 3 pour générer des images.

Source : The Verge

Cela permet de combiner des motifs, des scènes et des styles de manière inédite.


Le saviez-vous ? Google News vous permet de choisir vos médias. Ne passez pas à côté de Frandroid et Numerama.