
Google continue de décliner Gemini à toutes les sauces. Très présente sur les smartphones Android, l’intelligence artificielle du géant américain vient maintenant animer des robots.
La division DeepMind de la firme lève ainsi le voile sur deux nouveaux modèles de langage IA dérivés de Gemini 2.0 :
- Gemini Robotics, un modèle « vision-langage-action » (VLA) ;
- et Gemini Robotics-ER, un modèle de langage basé sur la vison (VLM).
« Ces deux modèles permettent à une variété de robots d’effectuer un plus grand nombre de tâches dans le monde réel que jamais auparavant », explique Google.
Le géant de Mountain View s’associe par ailleurs avec Apptronik, spécialiste de la robotique « pour faire progresser la prochaine génération de robots humanoïdes ».
Des robots plus réactifs, intelligents et habiles
Pour expliquer sa démarche, Google met en avant trois grands principes pour que les modèles d’IA destinés aux robots deviennent vraiment utile aux humains.
Tout d’abord, les modèles doivent être « généraux » pour s’adapter à différentes situations, il ne faut donc pas qu’ils soient spécialisés dans une tâche précise. Ici, Gemini Robotics comprend des tâches qu’il n’a jamais fait auparavant, sait gérer plusieurs instructions à la fois et s’accommode bien des nouveaux objets et environnements. Google se targue d’obtenir des résultats plus de deux fois supérieurs dans les benchmarks mesurant ce type de performances.

Ils doivent aussi être « interactifs » pour comprendre et répondre aux instructions et questions ou à des changements dans leur environnement. Ici, la compréhension du langage naturel par Gemini 2.0 entre forcément en jeu.
Enfin, la notion de « dextérité » est également citée pour des robots capables d’utiliser habilement leurs mains et manipuler des objets avec précaution. Chose qui est plus facile à dire qu’à faire pour un robot. Or, « Gemini Robotics peut s’attaquer à des tâches extrêmement complexes, en plusieurs étapes, qui nécessitent une manipulation précise, comme le pliage d’un origami ou l’emballage d’un snack dans un sac Ziploc [avec fermeture à glissière ; ndlr] ».
Google explique aussi que ce modèle est conçu pour s’adapter à toutes les formes de robots.
Nous avons entraîné le modèle principalement sur des données provenant de la plate-forme robotique à deux bras ALOHA 2, mais nous avons également démontré qu’il pouvait contrôler une plate-forme à deux bras, basée sur les bras Franka utilisés dans de nombreux laboratoires universitaires. Gemini Robotics peut même être spécialisé pour des réalisations plus complexes, comme le robot humanoïde Apollo développé par Apptronik, dans le but d’accomplir des tâches du monde réel.
Raisonnement spatial
Pour ce qui est de Gemini Robotics-ER, ce modèle est plus spécifiquement conçu pour améliorer la compréhension du monde de Gemini 2.0. Pour les robots, Google explique s’être particulièrement concentré sur « le raisonnement spatial ».
En combinant ça à sa maîtrise du codage, Gemini Robotics-ER peut développer « à la volée » de nouvelles capacités en fonction de ce que voit le robot. « Par exemple, lorsqu’on lui montre une tasse à café, le modèle peut déterminer une prise appropriée à deux doigts pour la saisir par la poignée et une trajectoire sûre pour s’en approcher ».
Autre argument, ce modèle « peut effectuer toutes les étapes nécessaires pour contrôler un robot dès sa sortie de la boîte, y compris la perception, l’estimation de l’état, la compréhension de l’espace, la planification et la génération de code ». Dans de tels scénarios où l’IA doit gérer toutes les tâches de bout en bout, Google met en avant des taux de réussite 2 à 3 fois supérieurs à ce que sait faire la version classique de Gemini 2.0.
Google met à disposition Gemini Robotics-ER à plusieurs partenaires triés sur le volet pour qu’ils puissent le tester et faire des retours pour l’améliorer. Sont notamment cités Agile Robots, Agility Robots, Boston Dynamics et le Français Enchanted Tools.
Votre café et votre dose de tech vous attendent sur WhatsApp chaque matin avec Frandroid.
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix