Le nouveau modèle de ChatGPT peut mentir à ses utilisateurs

EXTERMINATE!

Mis à jour le 10 décembre 202410/12/2024 • 11:09

À peine lancé, le nouveau modèle de ChatGPT suscite des inquiétudes de la part de plusieurs équipes de sécurités. Des chercheurs ont vu à plusieurs occasions que le chatbot était capable de mentir intentionnellement.

Le logo de ChatGPT // Source : ilgmyzin via Unsplash

En juillet dernier, des accusations couraient sur le fait qu’OpenAI aurait peut-être anticipé la sortie de son nouveau modèle en dépit de la sécurité des utilisateurs. Aujourd’hui, on apprend que le modèle o1 tout récemment sorti suscite les mêmes craintes avec des preuves à l’appui.

Mentir pour se protéger

On apprend via TechCrunch que l’équipe de sécurité d’OpenAI, la Red Team, et l’organisme Apollo Research, spécialisé dans la sécurité autour de l’IA, ont mené des études pour évaluer les risques présentés par le nouveau modèle de ChatGPT o1, qui serait capable de raisonner. Les résultats montrent que l’IA pourrait mentir intentionnellement pour satisfaire la requête de l’utilisateur, mais aussi pour se protéger.

Dans leur protocole, les chercheurs ont remarqué à plusieurs reprises que l’IA désactivait son propre système de surveillance pour répondre à leur requête. Pire, lorsque les chercheurs ont mis ChatGPT devant la situation, celui-ci est en mesure de nier, allant même jusqu’à « fabriquer de fausses explications » environ 99 % du temps, rapporte TechCrunch.

Selon OpenAI, le modèle o1 est environ 20 % plus manipulateur que GPT-4o mais il n’y aurait à priori rien à craindre car « Apollo Research estime qu’il est peu probable que de tels cas conduisent à des résultats catastrophiques, car les capacités des agents o1 ne semblent pas suffisantes ». Reste maintenant à savoir comment les protocoles de sécurité vont évoluer à mesure que les permissions offertes par ChatGPT se développent.

Une boîte noire

L’autre point préoccupant de l’étude concerne la fameuse méthode de raisonnement du modèle o1 qui relève pour le moment d’une boîte noire.

« Dans notre suite, o1 a montré des cas de manigances préoccupants, mais ne révèle pas son raisonnement interne à l’utilisateur et reste très systématiquement trompeur après avoir effectué ces manigances »
Apollo Research

OpenAI cherche à rassurer en affirmant qu’elle met en place des moyens pour surveiller et mieux identifier le raisonnement du modèle o1, spécifiant que seulement 0,17 % des réponses d’o1 sont trompeuses. Si ce chiffre semble dérisoire, TechCrunch rappelle que ChatGPT compte aujourd’hui 300 millions d’utilisateurs, ce qui signifierait que des milliers de personnes pourraient être confrontés à ces situations.

Ces révélations sont d’autant plus préoccupantes que plusieurs employés ont récemment quitté OpenAI, accusant l’entreprise de négligence en matière de sécurité. Il reste maintenant à voir comment les autorités de régulation parviendront à encadrer cette technologie en constante évolution.

Rejoignez-nous de 17 à 19h, un mercredi sur deux, pour l’émission UNLOCK produite par Frandroid et Numerama ! Actus tech, interviews, astuces et analyses… On se retrouve en direct sur Twitch ou en rediffusion sur YouTube !

Signaler une erreur dans le texte

Sources : TechCrunch, Apollo Research, OpenAI

Les notifications web

Les notifications push vous permettent de recevoir toute l'actualité de Frandroid en temps réel dans votre navigateur ou sur votre téléphone Android.

Activer les notifications

Choisir les notifications

En savoir plus sur les notifications web