Gemini 2.0 : ce qui change avec la nouvelle IA et comment l’essayer

Promis, cet article n’a pas été écrit par une IA

 
Google vient de présenter Gemini 2.0, une version plus rapide et moins coûteuse à exécuter. Cette IA se veut surtout profondément multimodale, ce qui signifie qu’elle peut manipuler du texte, des images et du son en même temps, la rendant plus utile que jamais.
Gemini 2.0 devrait propulser les ambitions de Google dans une nouvelle ère en 2025 // Source : Google

La course à l’intelligence artificielle a pris une nouvelle tournure avec l’accès au grand public de ChatGPT, édité par OpenAI et dont la recherche a été beaucoup encouragée (et financée) par Microsoft. Face aux promesses et aux performances de ces avancées, les autres géants de la tech n’ont pas tardé à suivre le mouvement, et à ce jeu, Google se positionne comme un concurrent très sérieux.

Avec Gemini, la firme de Mountain View veut en effet conserver sa place dominante dans le marché de la recherche sur le web, mais aussi intégrer l’IA dans tous ses services qui peuvent en bénéficier, tels que Workspace, Gmail ou encore Home. Mais cette évolution n’a commencé que récemment, et nombreux sont ceux qui se demandent encore à quoi ressemblera l’Internet de demain.

Pour cela, il n’y a plus besoin de beaucoup d’imagination, car Google vient de présenter Gemini 2.0, une version plus rapide que Gemini 1.5, plus complète, plus polyvalente et surtout, selon les termes de la firme américaine : plus utile.

Quand l’intelligence artificielle comprend tout pour pouvoir tout faire

Multimodal : c’est sûrement le mot clé à retenir ici. Si les outils développés par OpenAI ou Google sont capables de traiter plusieurs types d’informations différentes en même temps, que ce soit du texte, des images ou du son, Gemini 2.0 pousse la barre un peu plus loin en intégrant davantage cet aspect au cœur de son IA. Selon la firme de Mountain View dans un communiqué de presse, cela devrait offrir « des performances accrues » et permettre « l’utilisation d’outils natifs comme la recherche Google ».

Surtout, Gemini 2.0 devrait pouvoir propulser « des expériences agentives plus avancées, permettant aux assistants IA d’anticiper les besoins des utilisateurs et d’effectuer des actions sous leur supervision ». Ainsi, si Google veut rendre les conversations avec son outil plus fluides et complètes, que ce soit en pleine rue avec Astra, ou en faisant une simple recherche sur internet, elle souhaite aussi lui permettre de faire plus de choses pour nous et à notre place.

C’est du moins la raison d’être, entre autres, du projet Mariner, une extension pour Chrome qui peut utiliser le navigateur de manière autonome. Il sera, par exemple, possible de lui demander une recette pour faire un mojito, d’en lister les ingrédients, et les ajouter à un panier sur le site de votre commerçant favori.

Google a d’autres agents sous le coude, pour les développeurs ou les joueurs, et il ne pourrait s’agir que d’un début. Dans un billet de blog, Sundar Pichai, PDG de la firme, annonce une « nouvelle ère agentive », où Gemini 2.0 sera détourné en davantage d’usages différents, adaptés aux services qui en auront besoin.

L’ère d’une IA vraiment utile, mais surtout moins gourmande

Pour le moment, outre les impressionnantes démonstrations publiées et les espérances de Google, on ne sait pas encore si Gemini 2.0 sera tellement plus utile que son prédécesseur. Selon Bloomberg, qui a pu tester certaines de ses fonctionnalités, l’outil n’est pas exempt de quelques erreurs. Mais ce n’est pas forcément le plus important ici.

Relayé par The Verge, Demis Hassabis, PDG de Google DeepMind, a déclaré que le but de cette nouvelle mouture n’est pas seulement d’être plus performante, mais aussi d’être moins coûteuse. Un objectif atteint avec Gemini 2.0 Flash, un modèle « aussi performant que le modèle Pro actuel » de Gemini 1.5, selon Hassabis. « On peut donc considérer qu’il s’agit d’un niveau supérieur, pour le même rapport coût-efficacité, les mêmes performances et la même vitesse », ajoute-t-il.

Pour aller plus loin
Après le texte, l’image et le son, l’IA peut désormais générer des jeux vidéo

Gemini 2.0 n’en est qu’au stade expérimental, et il va falloir attendre 2025 pour prendre totalement conscience de son plein potentiel. Il est toutefois possible d’en avoir un avant-goût via le portail web de Gemini. Soit en activant Gemini 2.0 Flash, soit en essayant Deep Research, une nouvelle fonctionnalité disponible pour les abonnés à Gemini Advanced et capable de mener « des recherches complexes et de compiler des rapports ».

Attention toutefois, si vous ne parlez pas la langue de Shakespeare avec vos IA, il se peut que Gemini 2.0 ne soit pas aussi performant qu’annoncé. En effet, la plupart des fonctionnalités mises à notre disposition sont disponibles en anglais seulement. Mais l’outil de Google devrait rapidement progresser sur ce point, et même, être capable d’échanger dans plusieurs langues différentes dans une même conversation. Et ça, ce serait vraiment utile !


Rejoignez-nous de 17 à 19h, un jeudi sur deux, pour l’émission UNLOCK produite par Frandroid et Numerama ! Actus tech, interviews, astuces et analyses… On se retrouve en direct sur Twitch ou en rediffusion sur YouTube !

Les derniers articles