Après les smartphones, voici carrément les robots Gemini rêvés par Google

 
Google dégaine deux nouvelles déclinaisons de Gemini 2.0 spécifiquement dédiées aux robots. Voici ce qu’il faut retenir.
Un robot propulsé par le modèle Google Gemini Robotics en train de ranger un encas dans un sac. // Source : Google DeepMind

Google continue de décliner Gemini à toutes les sauces. Très présente sur les smartphones Android, l’intelligence artificielle du géant américain vient maintenant animer des robots.

La division DeepMind de la firme lève ainsi le voile sur deux nouveaux modèles de langage IA dérivés de Gemini 2.0 :

  • Gemini Robotics, un modèle « vision-langage-action » (VLA) ;
  • et Gemini Robotics-ER, un modèle de langage basé sur la vison (VLM).

« Ces deux modèles permettent à une variété de robots d’effectuer un plus grand nombre de tâches dans le monde réel que jamais auparavant », explique Google.

Le géant de Mountain View s’associe par ailleurs avec Apptronik, spécialiste de la robotique « pour faire progresser la prochaine génération de robots humanoïdes ».

Des robots plus réactifs, intelligents et habiles

Pour expliquer sa démarche, Google met en avant trois grands principes pour que les modèles d’IA destinés aux robots deviennent vraiment utile aux humains.

Tout d’abord, les modèles doivent être « généraux » pour s’adapter à différentes situations, il ne faut donc pas qu’ils soient spécialisés dans une tâche précise. Ici, Gemini Robotics comprend des tâches qu’il n’a jamais fait auparavant, sait gérer plusieurs instructions à la fois et s’accommode bien des nouveaux objets et environnements. Google se targue d’obtenir des résultats plus de deux fois supérieurs dans les benchmarks mesurant ce type de performances.

Gemini Robotics enregistre de bons résultats dans les benchmarks. // Source : Google DeepMind

Ils doivent aussi être « interactifs » pour comprendre et répondre aux instructions et questions ou à des changements dans leur environnement. Ici, la compréhension du langage naturel par Gemini 2.0 entre forcément en jeu.

Enfin, la notion de « dextérité » est également citée pour des robots capables d’utiliser habilement leurs mains et manipuler des objets avec précaution. Chose qui est plus facile à dire qu’à faire pour un robot. Or, « Gemini Robotics peut s’attaquer à des tâches extrêmement complexes, en plusieurs étapes, qui nécessitent une manipulation précise, comme le pliage d’un origami ou l’emballage d’un snack dans un sac Ziploc [avec fermeture à glissière ; ndlr] ».

Google explique aussi que ce modèle est conçu pour s’adapter à toutes les formes de robots.

Nous avons entraîné le modèle principalement sur des données provenant de la plate-forme robotique à deux bras ALOHA 2, mais nous avons également démontré qu’il pouvait contrôler une plate-forme à deux bras, basée sur les bras Franka utilisés dans de nombreux laboratoires universitaires. Gemini Robotics peut même être spécialisé pour des réalisations plus complexes, comme le robot humanoïde Apollo développé par Apptronik, dans le but d’accomplir des tâches du monde réel.

Raisonnement spatial

Pour ce qui est de Gemini Robotics-ER, ce modèle est plus spécifiquement conçu pour améliorer la compréhension du monde de Gemini 2.0. Pour les robots, Google explique s’être particulièrement concentré sur « le raisonnement spatial ».

En combinant ça à sa maîtrise du codage, Gemini Robotics-ER peut développer « à la volée » de nouvelles capacités en fonction de ce que voit le robot. « Par exemple, lorsqu’on lui montre une tasse à café, le modèle peut déterminer une prise appropriée à deux doigts pour la saisir par la poignée et une trajectoire sûre pour s’en approcher ».

Autre argument, ce modèle « peut effectuer toutes les étapes nécessaires pour contrôler un robot dès sa sortie de la boîte, y compris la perception, l’estimation de l’état, la compréhension de l’espace, la planification et la génération de code ». Dans de tels scénarios où l’IA doit gérer toutes les tâches de bout en bout, Google met en avant des taux de réussite 2 à 3 fois supérieurs à ce que sait faire la version classique de Gemini 2.0.

Google met à disposition Gemini Robotics-ER à plusieurs partenaires triés sur le volet pour qu’ils puissent le tester et faire des retours pour l’améliorer. Sont notamment cités Agile Robots, Agility Robots, Boston Dynamics et le Français Enchanted Tools.


Les derniers articles