Si Microsoft a investi 10 milliards de dollars dans OpenAI, l’entreprise derrière ChatGPT, la firme ne veut pas pour autant se retrouver dépendante de la technologie d’un autre. C’est pourquoi elle développe aussi de son côté des modèles de langage, les moteurs des chatbots d’intelligence artificielle. Microsoft a présenté dans un article scientifique (PDF) Phi-1, un modèle de langage plus petit que GPT-3.5 d’OpenAI (qu’on trouve sur ChatGPT), mais qui serait plus puissant.
Moins de complexité, plus de performances : la PHIlosophie de Microsoft
Phi-1 est donc un modèle de langage d’intelligence artificielle dédié à la programmation informatique (en Python) et sa principale particularité, c’est sa taille. Il est plus petit que bien d’autres de ses concurrents et c’est totalement assumé par ses concepteurs.
Il est fondé sur une architecture dite « Transformer » avec 1,3 milliard de paramètres. Il a été entraîné en seulement trois jours sur 8 GPU A100 de Nvidia. Certaines données d’entraînement sont manuelles et proviennent d’Internet, tandis que d’autres ont été générées automatiquement via GPT-3.5.
Pour réaliser cela, les chercheurs de Microsoft ont préféré la qualité des données à la quantité ingurgitée par Phi-1 : « il est connu depuis longtemps que des données de meilleure qualité conduisent à de meilleurs résultats ». Pour eux, « le nettoyage des données est une partie importante de la création moderne d’ensembles de données, et il peut produire d’autres avantages secondaires tels que des ensembles de données plus petits. »
Pourquoi les modèles de langage doivent être plus petits
Au-delà de la simple démonstration technique, Microsoft veut montrer « l’impact remarquable de données de haute qualité pour affiner la compétence d’un modèle de langage dans les tâches de génération de code. » En nécessitant moins d’entraînement et donc moins de puissance de calcul, Phi-1 a un autre avantage sur ses concurrents, comme GPT-3.5. L’avantage écologique : entraîner des « LLM » (grands modèles de langage), demande des puissances de calcul très grandes, donc des serveurs qui tournent continuellement pendant un certain temps.
Si cela coûte de l’argent, cela coûte aussi à l’environnement, avec toute l’énergie produite pour utiliser et faire refroidir les serveurs. Avoir des modèles avec le moins de paramètres possible, c’est aussi plus écologique.
Pour aller plus loin
On a visité un datacenter français nouvelle génération : polluer moins pour gagner plus
Il reste cependant des limitations à la généralisation de cette méthode : avoir des données fiables et bien étiquetées, ça coûte cher, si bien que l’entraînement des IA peut entraîner l’exploitation de travailleurs. Les chercheurs écrivent qu’il faut « s’assurer que l’ensemble de données couvre tous les contenus et concepts pertinents que l’on souhaite que le modèle apprenne, et le fait qu’il le fasse de manière équilibrée et représentative. »
Chaque matin, WhatsApp s’anime avec les dernières nouvelles tech. Rejoignez notre canal Frandroid pour ne rien manquer !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix