Plus fort que ChatGPT : comment Microsoft fait mieux avec moins

Microsoft a dévoilé un nouveau modèle linguistique baptisé Phi-1. Ce dernier ne compte qu’1,3 milliard de paramètres contre 100 milliards pour GPT-3.5. Or, ce dernier-né le surpasse sur plusieurs points. De quoi faire plus avec moins de ressources et de puissance de calcul.

Si Microsoft a investi 10 milliards de dollars dans OpenAI, l’entreprise derrière ChatGPT, la firme ne veut pas pour autant se retrouver dépendante de la technologie d’un autre. C’est pourquoi elle développe aussi de son côté des modèles de langage, les moteurs des chatbots d’intelligence artificielle. Microsoft a présenté dans un article scientifique (PDF) Phi-1, un modèle de langage plus petit que GPT-3.5 d’OpenAI (qu’on trouve sur ChatGPT), mais qui serait plus puissant.

Moins de complexité, plus de performances : la PHIlosophie de Microsoft

Phi-1 est donc un modèle de langage d’intelligence artificielle dédié à la programmation informatique (en Python) et sa principale particularité, c’est sa taille. Il est plus petit que bien d’autres de ses concurrents et c’est totalement assumé par ses concepteurs.

Il est fondé sur une architecture dite « Transformer » avec 1,3 milliard de paramètres. Il a été entraîné en seulement trois jours sur 8 GPU A100 de Nvidia. Certaines données d’entraînement sont manuelles et proviennent d’Internet, tandis que d’autres ont été générées automatiquement via GPT-3.5.

Microsoft 365 Copilot // Source : Microsoft

Pour réaliser cela, les chercheurs de Microsoft ont préféré la qualité des données à la quantité ingurgitée par Phi-1 : « il est connu depuis longtemps que des données de meilleure qualité conduisent à de meilleurs résultats ». Pour eux, « le nettoyage des données est une partie importante de la création moderne d’ensembles de données, et il peut produire d’autres avantages secondaires tels que des ensembles de données plus petits. »

Pourquoi les modèles de langage doivent être plus petits

Au-delà de la simple démonstration technique, Microsoft veut montrer « l’impact remarquable de données de haute qualité pour affiner la compétence d’un modèle de langage dans les tâches de génération de code. » En nécessitant moins d’entraînement et donc moins de puissance de calcul, Phi-1 a un autre avantage sur ses concurrents, comme GPT-3.5. L’avantage écologique : entraîner des « LLM » (grands modèles de langage), demande des puissances de calcul très grandes, donc des serveurs qui tournent continuellement pendant un certain temps.

Le datacenter de Roubaix 8 // Source : OVHcloud

Si cela coûte de l’argent, cela coûte aussi à l’environnement, avec toute l’énergie produite pour utiliser et faire refroidir les serveurs. Avoir des modèles avec le moins de paramètres possible, c’est aussi plus écologique.

Pour aller plus loin
On a visité un datacenter français nouvelle génération : polluer moins pour gagner plus

Il reste cependant des limitations à la généralisation de cette méthode : avoir des données fiables et bien étiquetées, ça coûte cher, si bien que l’entraînement des IA peut entraîner l’exploitation de travailleurs. Les chercheurs écrivent qu’il faut « s’assurer que l’ensemble de données couvre tous les contenus et concepts pertinents que l’on souhaite que le modèle apprenne, et le fait qu’il le fasse de manière équilibrée et représentative. »

Téléchargez notre application Android et iOS ! Vous pourrez y lire nos articles, dossiers, et regarder nos dernières vidéos YouTube.