Les derniers modèles d’IA hallucinent plus, OpenAI ne comprend pas pourquoi

 
OpenAI vient de dévoiler deux nouveaux modèles d’intelligence artificielle, o3 et o4-mini, présentés comme une avancée majeure dans le domaine du raisonnement automatisé. Pourtant, ces modèles, bien que plus performants sur de nombreux plans, affichent une plus grande tendance à « halluciner ».

Que cela soit en matière d’IA ou dans la « vraie vie », le fait de proposer des informations erronées ou inventées, est un phénomène bien connu. On parle alors d’hallucination.

Récemment, une étude de la BBC révélait que la moitié des réponses fournies par une IA étaient biaisée ou fausse. Car même si ces entités sont capables de raisonner, elles ne sont pas exemptes d’hallucinations.

Or, OpenAI vient d’officialiser le lancement de ses modèles o3 et o4-mini, qualifiés de plus intelligents et polyvalents à ce jour. Selon l’entreprise, ces modèles peuvent désormais « penser plus longtemps avant de répondre », ce qui se traduit par une capacité à résoudre des problématiques complexes nécessitant une analyse approfondie et multi-étapes. Ils excellent notamment dans la programmation, les mathématiques, la science, la perception visuelle et la génération d’images.

Pour la première fois, ces modèles sont capables d’intégrer et de manipuler directement des éléments visuels dans leur raisonnement. Un utilisateur peut ainsi soumettre une photo de tableau blanc, un schéma ou une illustration, même de qualité médiocre, et le modèle saura l’interpréter et l’exploiter dans sa réponse. Une voie vers de nouveaux usages s’ouvre donc, notamment dans l’éducation, la recherche ou l’ingénierie, où la compréhension simultanée du texte et de l’image est essentielle.

En outre, o3 et o4-mini bénéficient d’un accès complet à l’ensemble des outils de ChatGPT : navigation sur le web, analyse de fichiers, génération d’images, exécution de code Python, etc. Cette agentivité accrue leur permet de traiter des requêtes complexes de bout en bout, en combinant différentes sources et formats de données, ce qui n’était pas possible avec les générations précédentes.

Un taux d’hallucination en hausse, Open AI ne comprend pas

Tout cela est bien joli mais il y a un mais. En effet, malgré ces avancées, OpenAI reconnaît que ses nouveaux modèles de raisonnement présentent une propension accrue à l’hallucination. Certaines informations seraient inexactes, voire totalement inventées, un problème déjà connu mais qui s’aggrave avec o3 et o4-mini par rapport à leurs prédécesseurs.

Ainsi, des évaluations internes révèlent que le taux d’hallucination d’o3 sur le benchmark PersonQA atteint environ le double de celui des anciens modèles, tandis qu’o4-mini affiche un taux encore plus élevé. Sur certains tests, près de la moitié des réponses générées par o4-mini comportaient des éléments erronés. OpenAI admet ne pas comprendre précisément les causes de cette hausse et souligne la nécessité de poursuivre les recherches pour y remédier.

Des évaluations externes, notamment par l’organisme Transluce, confirment cette tendance : o3 peut inventer des actions ou des faits, comme prétendre avoir effectué une recherche sur une version de ChatGPT à laquelle il n’a pas accès. Ce comportement limite l’utilisation de ces modèles dans des secteurs où la précision est impérative, par exemple le juridique ou la rédaction de contrats, où toute erreur factuelle peut avoir des conséquences majeures.

Sur le marché, les modèles o3 et o4-mini se trouvent en concurrence directe avec les solutions de Google, Meta ou encore DeepSeek, qui développent également des IA de raisonnement multimodal. Si OpenAI revendique une avance sur certains benchmarks, le problème des hallucinations reste partagé par l’ensemble du secteur et peut être un frein à l’adoption massive de ces technologies dans les environnements où la véracité des informations est indispensable.


Le saviez-vous ? Google News vous permet de choisir vos médias. Ne passez pas à côté de Frandroid et Numerama.