En juillet dernier, des accusations couraient sur le fait qu’OpenAI aurait peut-être anticipé la sortie de son nouveau modèle en dépit de la sécurité des utilisateurs. Aujourd’hui, on apprend que le modèle o1 tout récemment sorti suscite les mêmes craintes avec des preuves à l’appui.
Mentir pour se protéger
On apprend via TechCrunch que l’équipe de sécurité d’OpenAI, la Red Team, et l’organisme Apollo Research, spécialisé dans la sécurité autour de l’IA, ont mené des études pour évaluer les risques présentés par le nouveau modèle de ChatGPT o1, qui serait capable de raisonner. Les résultats montrent que l’IA pourrait mentir intentionnellement pour satisfaire la requête de l’utilisateur, mais aussi pour se protéger.
Dans leur protocole, les chercheurs ont remarqué à plusieurs reprises que l’IA désactivait son propre système de surveillance pour répondre à leur requête. Pire, lorsque les chercheurs ont mis ChatGPT devant la situation, celui-ci est en mesure de nier, allant même jusqu’à « fabriquer de fausses explications » environ 99 % du temps, rapporte TechCrunch.
Selon OpenAI, le modèle o1 est environ 20 % plus manipulateur que GPT-4o mais il n’y aurait à priori rien à craindre car « Apollo Research estime qu’il est peu probable que de tels cas conduisent à des résultats catastrophiques, car les capacités des agents o1 ne semblent pas suffisantes ». Reste maintenant à savoir comment les protocoles de sécurité vont évoluer à mesure que les permissions offertes par ChatGPT se développent.
Une boîte noire
L’autre point préoccupant de l’étude concerne la fameuse méthode de raisonnement du modèle o1 qui relève pour le moment d’une boîte noire.
« Dans notre suite, o1 a montré des cas de manigances préoccupants, mais ne révèle pas son raisonnement interne à l’utilisateur et reste très systématiquement trompeur après avoir effectué ces manigances »
Apollo Research
OpenAI cherche à rassurer en affirmant qu’elle met en place des moyens pour surveiller et mieux identifier le raisonnement du modèle o1, spécifiant que seulement 0,17 % des réponses d’o1 sont trompeuses. Si ce chiffre semble dérisoire, TechCrunch rappelle que ChatGPT compte aujourd’hui 300 millions d’utilisateurs, ce qui signifierait que des milliers de personnes pourraient être confrontés à ces situations.
Ces révélations sont d’autant plus préoccupantes que plusieurs employés ont récemment quitté OpenAI, accusant l’entreprise de négligence en matière de sécurité. Il reste maintenant à voir comment les autorités de régulation parviendront à encadrer cette technologie en constante évolution.
Utilisez-vous Google News (Actualités en France) ? Vous pouvez suivre vos médias favoris. Suivez Frandroid sur Google News (et Numerama).
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix