Après ChatGPT, OpenAI présente un autre outil bluffant : une IA capable de générer des modèles 3D

 
OpenAI a mis en ligne un nouvel outil basé sur l’intelligence artificielle : il permet de créer des modèles 3D à partir de texte, à l’instar de Dall-E avec les images ou de ChatGPT avec le texte. Une IA qui pourrait bien aider les créatifs dans leurs productions en trois dimensions.
Un schéma explicatif à propos de Dall-E // Source : OpenAI

OpenAI a annoncé la sortie d’un nouvel outil pour créer des images : Point-E, qui arrive à créer des nuages de points en 3D à partir de textes. La start-up liée à Elon Musk et spécialisée dans l’intelligence artificielle récidive donc après Dall-E et ChatGPT qui rencontrent ces derniers mois un grand succès, tant les usages possibles sont impressionnants.

Selon l’équipe dirigée par Alex Nichol, « Point-E peut souvent produire des formes 3D cohérentes et de haute qualité pour des requêtes complexes », qui plus est en couleur. Si ce n’est pas le meilleur outil qui existe, ses créateurs sont certains : c’est le plus rapide et de loin.

Une IA qui demande beaucoup moins de ressources que les autres pour créer des objets en 3D

Pour les ingénieurs d’OpenAI, la plus grande prouesse de leur outil, c’est sa rapidité et par extension la faible puissance de calcul pour le faire fonctionner. Dans un article scientifique, ils expliquent que pour la génération d’objets en 3D via du texte, « les méthodes les plus récentes nécessitent généralement plusieurs heures de GPU pour produire un seul échantillon ». Ce qui est beaucoup quand on voit que Dall-E arrive à créer des images en quelques secondes et que Meta arrive même à créer des vidéos.

Un florilège d’images générées par Point-E // Source : OpenAI

OpenAI a de ce fait décidé d’utiliser une méthode alternative « qui produit des modèles 3D en seulement 1 à 2 minutes sur un seul GPU ». Jusqu’à maintenant, Point-E a été entraîné sur des millions de modèles 3D, qui ont pu être convertis dans un format informatique standard.

Schéma du processus de génération automatique d’éléments en 3D // Source : OpenAI

On nous explique que l’intelligence artificielle génère en premier lieu une vue unique à l’aide d’un modèle texte à image (comme Dall-E). C’est à partir de cette image générée que le programme crée des points en 3D. À la fin de cette étape, le modèle comprend 1024 points, que le programme précise ensuite pour arriver à 4096 points.

Pourquoi Point-E fait mieux que les autres intelligences artificielles

Ces deux étapes ne prennent que quelques secondes indépendamment, ce qui permet de créer des modèles 3D beaucoup plus rapidement. Point-E entend combiner les avantages de deux méthodes de génération :

  • La première qui consiste à entraîner des modèles de génération 3D à partir de données appariées ;
  • La seconde qui exploite des modèles texte à image pré-entraînés pour ensuite représenter ces images en 3D.

C’est en se détachant justement de la 3D que Point-E arrive à réduire la puissance de calcul nécessaire, contrairement à ce que les autres IA expérimentales font à l’heure actuelle. Bien que d’autres programmes arrivent à générer des éléments en trois dimensions, les développeurs expliquent que le principal problème rencontré, ce sont « les procédures d’optimisation », qui demandent beaucoup de ressources graphiques. C’est ce qui empêche la création d’outils pratiques.

Des résultats de Point-E // Source : OpenAI

L’autre grande force de Point-E, c’est d’utiliser comme base d’entraînement non pas des objets 3D, mais des images : ces dernières sont disponibles en bien plus grande quantité. C’est ce qui lui permet de générer des éléments de tous types et à partir de descriptions plus complexes.

Les usages possibles de cet outil d’OpenAI

Point-E pourrait révolutionner la création de contenus en 3D et ainsi aider les modélisateurs dans leur travail, que ce soit pour le cinéma ou pour le jeu vidéo. On peut imaginer une intégration dans un moteur de jeu, à l’instar d’Unreal Engine, qui permettrait d’intégrer des objets générés en quelques secondes dans un univers virtuel, à partir d’une description textuelle.

D’autant plus que son avantage concurrentiel est sans doute le plus pratique : sa rapidité d’exécution. En face de lui, on compte aussi DreamFusion de Google, qui possède aussi une grande puissance de frappe en la matière.

Un rendu synthétique de Point-E sous différents points de vue // Source : OpenAI

De quoi aider à la création de métaverses et plus généralement d’univers en réalité virtuelle/réalité augmentée. Pour l’heure, le logiciel a encore des limites. Tout d’abord, la définition des objets générés reste assez faible, mais les ingénieurs ont de la suite dans les idées.

Il y a évidemment les biais dont peuvent être victimes les outils de génération automatique et c’est en partie cela qui fait que Point-E n’est pas accessible à tous sur le site d’OpenAI. On pourrait très bien demander à cette IA de générer un plan d’arme par exemple, ce qui doit être évité à tout prix. Pour autant, Point-E a été mis en ligne sur Github et tout le monde peut consulter le contenu du projet puisqu’il est en open source.


Utilisez-vous Google News (Actualités en France) ? Vous pouvez suivre vos médias favoris. Suivez Frandroid sur Google News (et Numerama).

Les derniers articles