De par leur conception, les LLM, les systèmes d’IA qui alimentent les chatbots comme ChatGPT ou Gemini, sont mauvais en raisonnement, et par extension en mathématiques. Pourtant, ils deviennent meilleurs : et s’ils trichaient ?
Pour aller plus loin
C’est quoi un LLM ? Comment fonctionnent les moteurs de ChatGPT, Google Bard et autres ?
Des IA de plus en plus impressionnantes en mathématiques, vraiment ?
C’est un article de recherche rédigé par des chercheurs de Scale AI qui explique le stratagème des LLM pour les tests de référence en mathématiques. Ils ne seraient aussi bons en maths que ce que les scores de ces tests montrent. Pour comprendre cela, il faut comprendre la conception des LLM.
Ce sont des systèmes linguistiques et statistiques : ils ne comprennent pas réellement les mots qu’on leur soumet. Et lors de la génération, ils prédisent la probabilité qu’un mot en suive un autre. Et c’est grâce aux énormes quantités de données qu’ils ont ingurgitées avant que le résultat paraît très humain et que leur syntaxe est bonne.
Ce que démontrent les chercheurs, c’est que des données qui ressemblent aux questions de référence peuvent être intégrées dans les entraînements des LLM. Ce qui pourrait permettre à ces derniers de s’entraîner sur ces mêmes questions.
De quoi artificiellement augmenter la réussite des tests, et non d’interpréter correctement les questions qui leur sont posées. En bref, c’est comme si vous aviez un examen dont vous appreniez par cœur les réponses au lieu d’apprendre comment en résoudre les problèmes. Les chercheurs nomment ce phénomène le « surajustement ».
Une triche aux conséquences très limitées
En réalité, les chercheurs qui ont mené cette étude l’affirment : la théorie n’est pas confirmée par leurs conclusions. Le fait que ces IA puissent s’entraîner à l’avance ne signifie pas obligatoirement qu’elles sont mauvaises en raisonnement. Simplement, elles sont un peu moins bonnes que ce que laissent entendre les tests de référence.
Les modèles suradaptés peuvent encore raisonner et résoudre des problèmes, même s’ils ne les ont jamais rencontrés au cours de leur entraînement.
Pour confirmer cela, ces chercheurs ont mis au point leur propre test de référence en mathématique (baptisé GSM1k). L’idée avec celui-ci, c’est de forcer les IA à interpréter un problème et pas uniquement la réponse. Le niveau reste peu élevé : des problèmes pour des enfants. L’équipe de recherche de Scale AI a ainsi démontré des baisses de précision jusqu’à 13% pour les LLM testés.
Un « problème » qui pourrait bientôt disparaître : avec les progrès en raisonnement de tous les systèmes, les problèmes mathématiques de primaire ne seront peut-être plus assez ardus pour les IA. D’autant plus que pour ces chercheurs, l’amélioration du raisonnement « est l’une des directions les plus importantes de la recherche actuelle ».
Utilisez-vous Google News (Actualités en France) ? Vous pouvez suivre vos médias favoris. Suivez Frandroid sur Google News (et Numerama).
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
GĂ©rer mes choix