Les IA trichent en mathématiques ? Oui et non

Elles ne mettent pas le mode Examen sur la calculatrice

 
Les LLM les plus connus, qu’on trouve dans ChatGPT ou dans Gemini, deviennent de plus en plus performants, notamment en mathématiques. Pourtant, ce ne serait pas dû à leurs avancées technologiques. En fait, ces intelligences artificielles tricheraient avant même de répondre à des problèmes.
Une image générée par Midjourney avec un prompt demandant une illustration d’intelligence artificielle // Source : Frandroid

De par leur conception, les LLM, les systèmes d’IA qui alimentent les chatbots comme ChatGPT ou Gemini, sont mauvais en raisonnement, et par extension en mathématiques. Pourtant, ils deviennent meilleurs : et s’ils trichaient ?

Pour aller plus loin
C’est quoi un LLM ? Comment fonctionnent les moteurs de ChatGPT, Google Bard et autres ?

Des IA de plus en plus impressionnantes en mathématiques, vraiment ?

C’est un article de recherche rédigé par des chercheurs de Scale AI qui explique le stratagème des LLM pour les tests de référence en mathématiques. Ils ne seraient aussi bons en maths que ce que les scores de ces tests montrent. Pour comprendre cela, il faut comprendre la conception des LLM.

Ce sont des systèmes linguistiques et statistiques : ils ne comprennent pas réellement les mots qu’on leur soumet. Et lors de la génération, ils prédisent la probabilité qu’un mot en suive un autre. Et c’est grâce aux énormes quantités de données qu’ils ont ingurgitées avant que le résultat paraît très humain et que leur syntaxe est bonne.

La page d’accueil de ChatGPT // Source : OpenAI

Ce que démontrent les chercheurs, c’est que des données qui ressemblent aux questions de référence peuvent être intégrées dans les entraînements des LLM. Ce qui pourrait permettre à ces derniers de s’entraîner sur ces mêmes questions.

De quoi artificiellement augmenter la réussite des tests, et non d’interpréter correctement les questions qui leur sont posées. En bref, c’est comme si vous aviez un examen dont vous appreniez par cœur les réponses au lieu d’apprendre comment en résoudre les problèmes. Les chercheurs nomment ce phénomène le « surajustement ».

Une triche aux conséquences très limitées

En réalité, les chercheurs qui ont mené cette étude l’affirment : la théorie n’est pas confirmée par leurs conclusions. Le fait que ces IA puissent s’entraîner à l’avance ne signifie pas obligatoirement qu’elles sont mauvaises en raisonnement. Simplement, elles sont un peu moins bonnes que ce que laissent entendre les tests de référence.

Les modèles suradaptés peuvent encore raisonner et résoudre des problèmes, même s’ils ne les ont jamais rencontrés au cours de leur entraînement.

Pour confirmer cela, ces chercheurs ont mis au point leur propre test de référence en mathématique (baptisé GSM1k). L’idée avec celui-ci, c’est de forcer les IA à interpréter un problème et pas uniquement la réponse. Le niveau reste peu élevé : des problèmes pour des enfants. L’équipe de recherche de Scale AI a ainsi démontré des baisses de précision jusqu’à 13% pour les LLM testés.

Un « problème » qui pourrait bientôt disparaître : avec les progrès en raisonnement de tous les systèmes, les problèmes mathématiques de primaire ne seront peut-être plus assez ardus pour les IA. D’autant plus que pour ces chercheurs, l’amélioration du raisonnement « est l’une des directions les plus importantes de la recherche actuelle ».


Utilisez-vous Google News (Actualités en France) ? Vous pouvez suivre vos médias favoris. Suivez Frandroid sur Google News (et Numerama).

Les derniers articles