Le nouveau modèle de ChatGPT peut mentir à ses utilisateurs

EXTERMINATE!

 
À peine lancé, le nouveau modèle de ChatGPT suscite des inquiétudes de la part de plusieurs équipes de sécurités. Des chercheurs ont vu à plusieurs occasions que le chatbot était capable de mentir intentionnellement.
Le logo de ChatGPT // Source : ilgmyzin via Unsplash

En juillet dernier, des accusations couraient sur le fait qu’OpenAI aurait peut-être anticipé la sortie de son nouveau modèle en dépit de la sécurité des utilisateurs. Aujourd’hui, on apprend que le modèle o1 tout récemment sorti suscite les mêmes craintes avec des preuves à l’appui.

Mentir pour se protéger

On apprend via TechCrunch que l’équipe de sécurité d’OpenAI, la Red Team, et l’organisme Apollo Research, spécialisé dans la sécurité autour de l’IA, ont mené des études pour évaluer les risques présentés par le nouveau modèle de ChatGPT o1, qui serait capable de raisonner. Les résultats montrent que l’IA pourrait mentir intentionnellement pour satisfaire la requête de l’utilisateur, mais aussi pour se protéger.

Dans leur protocole, les chercheurs ont remarqué à plusieurs reprises que l’IA désactivait son propre système de surveillance pour répondre à leur requête. Pire, lorsque les chercheurs ont mis ChatGPT devant la situation, celui-ci est en mesure de nier, allant même jusqu’à « fabriquer de fausses explications » environ 99 % du temps, rapporte TechCrunch.

Selon OpenAI, le modèle o1 est environ 20 % plus manipulateur que GPT-4o mais il n’y aurait à priori rien à craindre car « Apollo Research estime qu’il est peu probable que de tels cas conduisent à des résultats catastrophiques, car les capacités des agents o1 ne semblent pas suffisantes ». Reste maintenant à savoir comment les protocoles de sécurité vont évoluer à mesure que les permissions offertes par ChatGPT se développent.

Une boîte noire

L’autre point préoccupant de l’étude concerne la fameuse méthode de raisonnement du modèle o1 qui relève pour le moment d’une boîte noire.

« Dans notre suite, o1 a montré des cas de manigances préoccupants, mais ne révèle pas son raisonnement interne à l’utilisateur et reste très systématiquement trompeur après avoir effectué ces manigances »

Apollo Research

OpenAI cherche à rassurer en affirmant qu’elle met en place des moyens pour surveiller et mieux identifier le raisonnement du modèle o1, spécifiant que seulement 0,17 % des réponses d’o1 sont trompeuses. Si ce chiffre semble dérisoire, TechCrunch rappelle que ChatGPT compte aujourd’hui 300 millions d’utilisateurs, ce qui signifierait que des milliers de personnes pourraient être confrontés à ces situations.

Ces révélations sont d’autant plus préoccupantes que plusieurs employés ont récemment quitté OpenAI, accusant l’entreprise de négligence en matière de sécurité. Il reste maintenant à voir comment les autorités de régulation parviendront à encadrer cette technologie en constante évolution.


Utilisez-vous Google News (Actualités en France) ? Vous pouvez suivre vos médias favoris. Suivez Frandroid sur Google News (et Numerama).

Les derniers articles