La course à l’intelligence artificielle a pris une nouvelle tournure avec l’accès au grand public de ChatGPT, édité par OpenAI et dont la recherche a été beaucoup encouragée (et financée) par Microsoft. Face aux promesses et aux performances de ces avancées, les autres géants de la tech n’ont pas tardé à suivre le mouvement, et à ce jeu, Google se positionne comme un concurrent très sérieux.
Avec Gemini, la firme de Mountain View veut en effet conserver sa place dominante dans le marché de la recherche sur le web, mais aussi intégrer l’IA dans tous ses services qui peuvent en bénéficier, tels que Workspace, Gmail ou encore Home. Mais cette évolution n’a commencé que récemment, et nombreux sont ceux qui se demandent encore à quoi ressemblera l’Internet de demain.
Pour cela, il n’y a plus besoin de beaucoup d’imagination, car Google vient de présenter Gemini 2.0, une version plus rapide que Gemini 1.5, plus complète, plus polyvalente et surtout, selon les termes de la firme américaine : plus utile.
Quand l’intelligence artificielle comprend tout pour pouvoir tout faire
Multimodal : c’est sûrement le mot clé à retenir ici. Si les outils développés par OpenAI ou Google sont capables de traiter plusieurs types d’informations différentes en même temps, que ce soit du texte, des images ou du son, Gemini 2.0 pousse la barre un peu plus loin en intégrant davantage cet aspect au cœur de son IA. Selon la firme de Mountain View dans un communiqué de presse, cela devrait offrir « des performances accrues » et permettre « l’utilisation d’outils natifs comme la recherche Google ».
Surtout, Gemini 2.0 devrait pouvoir propulser « des expériences agentives plus avancées, permettant aux assistants IA d’anticiper les besoins des utilisateurs et d’effectuer des actions sous leur supervision ». Ainsi, si Google veut rendre les conversations avec son outil plus fluides et complètes, que ce soit en pleine rue avec Astra, ou en faisant une simple recherche sur internet, elle souhaite aussi lui permettre de faire plus de choses pour nous et à notre place.
C’est du moins la raison d’être, entre autres, du projet Mariner, une extension pour Chrome qui peut utiliser le navigateur de manière autonome. Il sera, par exemple, possible de lui demander une recette pour faire un mojito, d’en lister les ingrédients, et les ajouter à un panier sur le site de votre commerçant favori.
Google a d’autres agents sous le coude, pour les développeurs ou les joueurs, et il ne pourrait s’agir que d’un début. Dans un billet de blog, Sundar Pichai, PDG de la firme, annonce une « nouvelle ère agentive », où Gemini 2.0 sera détourné en davantage d’usages différents, adaptés aux services qui en auront besoin.
L’ère d’une IA vraiment utile, mais surtout moins gourmande
Pour le moment, outre les impressionnantes démonstrations publiées et les espérances de Google, on ne sait pas encore si Gemini 2.0 sera tellement plus utile que son prédécesseur. Selon Bloomberg, qui a pu tester certaines de ses fonctionnalités, l’outil n’est pas exempt de quelques erreurs. Mais ce n’est pas forcément le plus important ici.
Relayé par The Verge, Demis Hassabis, PDG de Google DeepMind, a déclaré que le but de cette nouvelle mouture n’est pas seulement d’être plus performante, mais aussi d’être moins coûteuse. Un objectif atteint avec Gemini 2.0 Flash, un modèle « aussi performant que le modèle Pro actuel » de Gemini 1.5, selon Hassabis. « On peut donc considérer qu’il s’agit d’un niveau supérieur, pour le même rapport coût-efficacité, les mêmes performances et la même vitesse », ajoute-t-il.
Pour aller plus loin
Après le texte, l’image et le son, l’IA peut désormais générer des jeux vidéo
Gemini 2.0 n’en est qu’au stade expérimental, et il va falloir attendre 2025 pour prendre totalement conscience de son plein potentiel. Il est toutefois possible d’en avoir un avant-goût via le portail web de Gemini. Soit en activant Gemini 2.0 Flash, soit en essayant Deep Research, une nouvelle fonctionnalité disponible pour les abonnés à Gemini Advanced et capable de mener « des recherches complexes et de compiler des rapports ».
Attention toutefois, si vous ne parlez pas la langue de Shakespeare avec vos IA, il se peut que Gemini 2.0 ne soit pas aussi performant qu’annoncé. En effet, la plupart des fonctionnalités mises à notre disposition sont disponibles en anglais seulement. Mais l’outil de Google devrait rapidement progresser sur ce point, et même, être capable d’échanger dans plusieurs langues différentes dans une même conversation. Et ça, ce serait vraiment utile !
Rejoignez-nous de 17 à 19h, un jeudi sur deux, pour l’émission UNLOCK produite par Frandroid et Numerama ! Actus tech, interviews, astuces et analyses… On se retrouve en direct sur Twitch ou en rediffusion sur YouTube !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
GĂ©rer mes choix