Voici comment générer du texte ou des images par de l’IA avec les cartes RTX

 
Vous vous intéressez aux IA et vous aimeriez générer du texte ou des images par vous-même, sans passer par un service payant ? C’est possible (assez) simplement si vous possédez une carte Nvidia GeForce RTX de génération 30 ou 40. On vous explique comment faire dans cet article.
Source : Nvidia

Si les entreprises derrière ChatGPT, Midjourney ou Google Gemini s’appuient sur des cartes graphiques Nvidia dans leurs serveurs pour faire tourner leurs IA génératives, alors pourquoi ne pourriez-vous pas faire de même ? En réalité, c’est tout à fait possible. Depuis quelques mois, Nvidia fournit gratuitement aux particuliers des outils pour faire tourner des LLM (Large Language Model) ou des extensions pour profiter de Stable Diffusion en local avec de meilleures performances. À condition de ne pas craindre de mettre les mains dans le cambouis et de bénéficier d’une carte graphique avec une VRAM conséquente, l’installation de ces outils est relativement simple.

ChatRTX : une IA de texte générative pour analyser vos propres documents

Disponible depuis février 2024, ChatRTX vous promet de créer un clone de ChatGPT en se basant uniquement sur la puissance et les données de votre ordinateur. Pour le faire tourner, la configuration nécessaire est la suivante :

Avec ces prérequis, l’installation et l’utilisation de cette interface de LLM est très simple. Elle se fait automatiquement via un fichier exécutable. Ça n’a l’air de rien, mais le fait que ce travail de configuration soit automatiquement réalisé en arrière-plan est déjà une petite prouesse en soi.

Le premier lancement de ChatRTX peut s’avérer déroutant. Une fenêtre contenant des lignes de commandes apparaît et déroule un programme abscons. Cette fenêtre dite « Shell » est le cœur du programme. Vous n’aurez absolument rien à y faire ou à entrer si ce n’est visualiser le processus d’inférence qui tourne en fond.

La fenêtre Shell peut se révéler impressionnante, mais vous n’avez rien à y entrer.

L’interaction avec l’IA en elle-même se fait via un navigateur web (une Web UI), hébergée sur une adresse IP locale de votre ordinateur, et affichée dans une interface simple. C’est cette interface qui se charge de traduire les demandes de l’utilisateur à la fameuse fenêtre Shell.

ChatRTX est capable de résumer des pdf présents sur votre disque dur. Vous n’aurez plus d’excuses pour savoir ce qui se trouve dans le rapport du GIEC sur le réchauffement climatique.
Il est également possible de demander à What With RTX de lire des livres en français.

La principale particularité de ChatRTX, c’est que cette IA n’a pas besoin de connexion à Internet pour fonctionner. C’est à l’utilisateur de lui fournir une base de connaissances, en l’occurrence, des fichiers dont vous consentez à lui laisser l’accès sur votre PC. Pour l’instant, seuls les formats texte et PDF peuvent être scannés par l’IA. Ce qui peut se révéler très intéressant pour trouver des réponses si vous possédez, par exemple, des documents PDF volumineux à compulser ou même une bibliothèque d’ebooks à résumer.

Cette vidéo (en anglais) montre très clairement ce dont est capable ChatRTX

Des technologies de pointe pour animer des LLM en local

Pour parvenir à ce résultat en local, Nvidia s’est appuyé principalement sur trois technologies : la génération augmentée par récupération (Retrieval Augmented Generation ou RAG), sa libraire open source TensorRT-LLM et enfin les puces basées sur l’architecture Ampere pour propulser le tout. La technologie RAG se charge alors de connecter un LLM à des données présentes sur le PC de l’utilisateur, tandis que la librairie TensorRT-LLM se sert des Tensor Core des cartes graphiques pour optimiser et booster l’analyse de l’IA.

ChatRTX n’est pour l’instant qu’au stade de démo. Nvidia prévoit de l’améliorer au fil du temps et compte proposer une version complète dans quelques mois. Nvidia est aujourd’hui le seul acteur à proposer un outil simple à installer et à prendre en main pour jouer avec des LLM.

ChatRTX est capable d’analyser des photos

Nvidia améliore constamment son logiciel et compte proposer une version complète dans quelques mois. La dernière mise à jour en date, sortie le 1er mai 2024 apporte ainsi beaucoup de nouveautés :

  • De nouveaux LLM pris en charge, comme Gemma, le dernier LLM de Google, et ChatGLM3, un LLM ouvert et bilingue (anglais et chinois).
  • La prise en charge des photos dans les fichiers qu’il est possible de mettre en source. De cette façon, les utilisateurs de ChatRTX peuvent facilement rechercher et interagir localement avec leurs propres données photographiques sans avoir à étiqueter des métadonnées complexes, via la fonction CLIP d’OpenAI.
  • Les utilisateurs de ChatRTX peuvent également parler (avec leur micro) avec leurs propres données, grâce à la prise en charge de Whisper, un système de reconnaissance automatique de la parole par l’IA qui permet désormais à ChatRTX de comprendre la parole verbale.

Générer des images avec TensorRT et Stable Diffusion

Générer des images par IA depuis son propre PC est également possible. Le plus simple pour ce genre d’opération est encore d’utiliser Stable Diffusion. Pour l’installer, vous aurez besoin des prérequis suivants :

  • un compte GitHub (pour télécharger et installer AUTOMATIC1111) ;
  • un compte HuggingFace ;
  • de télécharger et installer Python en version 3.10 (on vous conseille de passer par le Microsoft Store pour faciliter l’installation) ;
  • une trentaine de Go d’espace libre sur votre disque dur ;
  • et si c’est la première fois que vous le faites, comptez au minimum une bonne heure d’installation.

Nous n’allons pas rentrer dans le détail dans le processus d’installation de Stable Diffusion sur un PC en local en passant par l’interface AUTOMATIC1111. Emmanuel Correia de la chaîne YouTube AiAndPixels l’explique très clairement et en français qui plus est :

Pour gagner du temps et sauter des étapes, vous pouvez aussi télécharger et installer Stability Matrix. Il s’agit d’un installateur « tout-en-un » qui évite de se poser des questions sur la version des différents logiciels et comptes à créer.

Si tout se passe bien, vous devriez pouvoir accéder à une interface visuelle, qui va s’afficher dans votre navigateur web (Web UI). Très complète, elle offre un peu plus d’options que l’interface officielle de Stable Diffusion en ligne. On vous conseille toutefois d’aller consulter quelques tutoriels et autres documentations en ligne pour l’apprivoiser.

AUTOMATIC 1111 permet de générer des images en local sur son propre PC.

Les avantages d’une carte graphique Nvidia GeForce RTX 30 ou 40 pour générer des images par IA

Sur le plan matériel, il n’est pas obligatoire de posséder une carte graphique Nvidia GeForce pour générer des images. Mais la configuration minimum pour se lancer dans la génération d’image se doit d’être musclée. Pour commencer à prompter dans de bonnes conditions, comptez un GPU avec au moins 8 Go de VRAM et sur 16 Go de RAM dans votre PC (pour être vraiment confortable, doublez ces valeurs). D’autre part, toutes les cartes graphiques ne se valent pas en termes de performances. Et dans ce domaine, Nvidia possède une bonne longueur d’avance.

En effet, les premiers benchmarks effectués avec Procyon, le nouveau logiciel de benchmark des créateurs de 3D Mark, sont sans appel. Les résultats publiés chez Hardware and co montrent très clairement la supériorité des GeForce de Nvidia sur la concurrence : une « simple » GeForce RTX 4070 propose ainsi des scores plus élevés que la plus chère des cartes graphiques de la concurrence.

Nvidia : une longueur d’avance dans le monde de l’IA générative

Ce n’est pas une surprise tant l’avance de Nvidia dans le domaine de l’IA, du Deep Learning et surtout de l’aspect logiciel est importante. L’entreprise ne se contente pas de produire uniquement le hardware le plus performant du domaine, elle propose également des pilotes et des extensions logicielles pour en tirer le meilleur parti. Les ingénieurs de Nvidia proposent ainsi depuis peu une extension de la libraire TensorRT dédiée à Stable Diffusion : TensorRT Extension for Stable Diffusion Web UI qui peut directement être attachée à l’interface de AUTOMATIC1111.

L’avance de Nvidia dans le domaine de l’IA générative ne devrait d’ailleurs pas s’arrêter de sitôt. La marque américaine est aujourd’hui sur tous les fronts de l’IA : génération de texte, de vidéo, d’images au sein des jeux vidéo, génération d’images et de représentation en 3D dans l’art, Nvidia est partout. Pour découvrir l’étendue des possibilités offertes par le matériel et les solutions logicielles du constructeur, le blog de la marque tient d’ailleurs une rubrique dédiée pour ne rien manquer des avancées en la matière.