Intelligence artificielle : cette start-up aspire tellement de données que les sites doivent réagir

 
Le PDG d’iFixit accuse la startup Anthropic et son IA Claude de voler des données sur son site pour alimenter son chatbot.
Logo Claude AI – Anthropic // Source : Anthropic

Le quotidien britannique Financial Times rapporte que la startup d’IA Anthropic est accusée d’aspirer de manière agressive des données sur des sites Web, dont iFixit pour entraîner ses systèmes d’IA.

Entraîner son IA à tout prix

Les intelligences artificielles que l’on connaît telles que ChatGPT, Claude, Google Gemini ou encore Copilot pour ne citer qu’elles, fonctionnent avec des LLM, Large Language Model qui doivent être alimentés par des données pour affiner leurs réponses aux questions posées.

Dès lors, plusieurs solutions s’offrent aux entreprises : certaines privilégient l’utilisation de données dont ils ont l’exclusivité quand d’autres vont plutôt se tourner vers l‘intégralité des données présentes sur internet, droit d’auteurs ou non. Pour récupérer ces données, les IA utilisent des robots d’indexations qui sillonnent internet et collectent les informations accessibles au public. Si la pratique est autorisée, la société Anthropic semble pousser la technique loin.

Le PDG de l’entreprise iFixit dénonce sur X (anciennement Twitter) les méthodes du robot d’Anthropic. iFixit aurait été visité plus d’un million de fois en 24 heures. Une technique agressive pouvant surcharger les serveurs et entraîner du travail supplémentaire pour les équipes.

https://twitter.com/kwiens/status/1816136485785186335

Des engagements non tenus

Cette pratique agressive est d’autant plus étonnante pour la société montée par d’anciens employés d’OpenAI, dont Jan Leike qui quittait OpenAI en mai pour des raisons éthiques sur l’impact que pouvait avoir l’IA sur la société. Antrophic déclarait alors « développer et maintenir de manière responsable une IA avancée pour le bénéfice à long terme de l’humanité ». On en est loin.

« Nous respectons le fichier robots.txt et notre robot d’exploration a respecté ce signal lorsque iFixit l’a implémenté », a déclaré la porte-parole d’Anthropic, Jennifer Martinez à The Verge. Les équipes d’Anthropic semblent donc avoir réagi après coup pour rester dans les règles. L’entreprise se défend d’ailleurs sur son site internet d’avoir une politique agressive ou nuisible pour les sites qu’elle visite.

Bien que ces données soient accessibles sur internet, elles ne sont pas pour autant exempt de droits d’auteur. Une notion que cette industrie semble avoir du mal à intégrer.


Notre émission Twitch SURVOLTÉS, c’est un mercredi sur deux de 17h à 19h : retrouvez-vous nous pour parler voiture électrique ou vélo électrique, autour de débats, d’interviews, d’analyses et de jeux !