On a généré 5 vidéos avec l’IA de Google : est-ce que Gemini rattrape ChatGPT ?

 
Il est maintenant possible de générer de courtes vidéos sur Gemini. Nous avons 5 exemples à vous montrer et à analyser.
5 exemples de vidéos générées avec Gemini (Veo 2). // Source : Frandroid

La bataille des IA continue ! Google annonce une grande nouvelle : la génération de vidéos par IA est maintenant disponible sur Gemini.

Le principe est simple : on écrit un prompt décrivant ce que l’on veut voir, on patiente un peu et l’agent conversationnel intelligent génère un contenu correspondant (ou presque) à ce que l’on a demandé.

Google Gemini utilise Veo 2 pour générer des vidéos basées sur vos prompts // Source : Frandroid

Cette nouvelle fonction est permise par le modèle de langage Veo 2 disponible depuis quelques mois. Ce modèle est donc maintenant accessible depuis Gemini Advanced (l’abonnement payant).

À lire aussi :
Google Veo : tout savoir sur le nouveau générateur de vidéos boosté par l’IA

Nous avons pu tester, en avant-première, la fonctionnalité pour générer cinq courtes vidéos que nous vous proposons de décortiquer dans cet article.

5 exemples de vidéos générées avec Gemini

Veo 2 est la réponse de Google à l’outil Sora du concurrent concurrent OpenAI. Le géant du web le présente comme un « état de l’art » du secteur. Autrement dit, la firme nous dit qu’il s’agit d’un modèle de langage à la pointe de l’innovation en termes de génération de vidéos.

Dans Gemini, vous pouvez donc utiliser le modèle Veo 2 pour créer des clips vidéo MP4 de 8 secondes, en HD (720p) et 16:9. Une fois les contenus générés (comptez une attente de 50 secondes environ), vous pouvez les télécharger au format MP4.

Un chat sur l’Arc de Triomphe

Voici le premier prompt que nous avons écrit.

Génère la vidéo d’un chat orange perché tout en haut de l’Arc de triomphe avec la caméra qui dézoome progressivement pour finir sur une vue aérienne des Champs-Élysées avec une forte circulation de voitures.

Premier constat : l’IA ne respecte pas vraiment la requête. Au lieu d’un mouvement de caméra en arrière depuis l’animal vers la vue aérienne, la vidéo ne montre que brièvement le chat avant de faire une transition en fondu vers le plan de l’Arc de Triomphe et des Champs-Elysées. Dommage.

L’objectif de ce premier prompt était double. Voir à quel point Veo 2 sait faire des vidéos réalistes et vérifier sa connaissance de lieux importants comme ce monument emblématique de Paris.

L’Arc de Triomphe selon l’IA de Google. // Source : Frandroid

Côté réalisme, on est bien servi, il n’y a pas grand-chose à redire. Pour ce qui est de la fidélité à l’Arc de Triomphe, on peut saluer une bonne ressemblance du monument en soi. En revanche, la circulation sur le rond-point de l’Étoile en bas a été totalement revisitée.

La tombe du Soldat inconnue n’existe plus dans cette version de Paris et les voitures passent allègrement sous l’arche.

Une dame en terrasse en train de lire

Pour notre deuxième exemple, nous voulions tester une requête plus simple.

Génère la vidéo d’une femme portant des lunettes, une chemise bleue et un pantalon blanc en train de lire sur une terrasse de café en plein été.

Là encore, le réalisme est au rendez-vous, les consignes bien respectées. Seules les interactions de la protagoniste avec le livre peut poser question. Elle feuillette dans un sens de lecture puis dans l’autre. Nous pourrions éventuellement trouver une excuse un peu bancale et prétendre que ce personnage a mal lu un passage sur la page précédente.

Impossible cependant d’expliquer les mouvements chaotiques de ses doigts. Les mains restent un challenge difficile pour les IA génératrices d’images.

Une fausse pub d’iPhone pliant

Place maintenant à notre troisième vidéo où nous voulions voir si l’IA pouvait générer quelque chose qui n’existe pas encore, mais qui fait beaucoup parler de lui.

Génère la vidéo d’annonce d’un iPhone pliant par Apple, dans le style des publicités de la marque, sur un fond neutre, où l’on voit bien le téléphone se déplier.

Alors. Comment dire ? Ce serait un euphémisme de dire qu’il est improbable qu’Apple opte pour un tel design d’iPhone pliant !

L’iPhone pliant ne ressemblera pas à ça ! (image générée par Gemini) // Source : Frandroid

On appréciera l’effort fait sur le mouvement de caméra pour avoir un aspect « révélation » du produit. Cependant, rien, mais absolument rien sur ce design ne pourrait voir le jour sur un iPhone pliant.

Un personnage d’anime japonais

Notre quatrième vidéo nous amène sur des styles moins réalistes. Inspirés par les images Ghibli sur ChatGPT, nous avons demandé un clip à la manière d’un anime japonais.

Génère la vidéo d’un homme politique qui prend son envol très rapidement en utilisant ses superpouvoirs après un discours réussi, dans un style d’anime japonais.

Et le résultat est très simple dans la réalisation, mais c’est plutôt satisfaisant et fidèle à ce que nous avons demandé.

Il est intéressant de voir qu’en écrivant notre prompt, nous partions du principe que l’IA allait montrer l’envol du personnage, le décollage, juste après son discours. Mais techniquement, la consigne, telle que nous l’avons écrite, n’impose pas ce détail.

Des randonneurs en galère

Enfin, pour notre cinquième exemple, nous avons voulu éprouvé l’IA sur un prompt complexe avec plusieurs informations à retenir.

Génère la vidéo d’un petit groupe de randonneurs et randonneuses marchant sur une falaise en bord de mer et qui doit affronter une très mauvaise météo avec beaucoup de pluie et des vagues très hautes qui viennent percuter la falaise. Le groupe a du mal à avancer à cause du vent très fort qui souffle de face. L’un des marcheurs perd son chapeau.

Ici, il y a plusieurs choses à relever.

  • Le décor est très bien retranscris. Le paysage, la pluie, les vagues et le vent. C’est très réussi.
  • Les humains détonnent par leurs mouvements peu naturels et, surtout, la personne en rouge traverse une le corps d’un autre personnage et semble fusionner avec un randonneur, en rouge également et peu visible, en arrière-plan. Là, l’IA ne fait pas du tout illusion.
  • Personne ne perd son chapeau ! Ou alors, nous ne l’avons pas vu.

Comment créer des vidéos sur Gemini

Vous l’avez vu, les résultats proposés par Veo 2 sur Gemini méritent encore plusieurs améliorations. On en tire une grande conclusion : pour le moment, il vaut a priori mieux se contenter de prompt simple (ex : la dame qui lit sur une terrasse de café). Quand il y a de la complexité dans la requête, les défauts apparaissent très vite.

Si vous voulez essayer, il faudra souscrire un abonnement Gemini Advanced via le forfait Google One AI Premium à 21,99 euros par mois.

Vous pouvez choisir le modèle Veo 2 dans Google Gemini Advanced // Source : Frandroid

Ensuite, il faudra cliquer sur la flèche allant vers le bas, située à proximité de la mention « Gemini Advanced » en haut au centre sur smartphone, en haut à gauche sur ordinateur.

Dans le menu déroulant, vous pourrez alors choisir Veo 2 en modèle à utiliser. Ensuite, il ne reste plus qu’à demander à l’IA de générer une vidéo.

Attention « le nombre de vidéos que vous pouvez créer est limité par mois, mais nous vous en informerons lorsque vous vous en approcherez », écrit Google.

Enfin, sachez que Veo 2 se rend aussi disponible sur l’outil Whisk dans Google Labs. Ainsi, avec Whisk Animate, il devient possible d’animer une image fixe. Cependant, Whisk n’est pas disponible en France pour le moment.


Notre émission Twitch SURVOLTÉS, c’est un mercredi sur deux de 18h à 20h : retrouvez-nous pour parler voiture électrique ou vélo électrique, autour de débats, d’interviews, d’analyses et de jeux !

Les derniers articles