Le quotidien britannique Financial Times rapporte que la startup d’IA Anthropic est accusée d’aspirer de manière agressive des données sur des sites Web, dont iFixit pour entraîner ses systèmes d’IA.
Entraîner son IA à tout prix
Les intelligences artificielles que l’on connaît telles que ChatGPT, Claude, Google Gemini ou encore Copilot pour ne citer qu’elles, fonctionnent avec des LLM, Large Language Model qui doivent être alimentés par des données pour affiner leurs réponses aux questions posées.
Dès lors, plusieurs solutions s’offrent aux entreprises : certaines privilégient l’utilisation de données dont ils ont l’exclusivité quand d’autres vont plutôt se tourner vers l‘intégralité des données présentes sur internet, droit d’auteurs ou non. Pour récupérer ces données, les IA utilisent des robots d’indexations qui sillonnent internet et collectent les informations accessibles au public. Si la pratique est autorisée, la société Anthropic semble pousser la technique loin.
Le PDG de l’entreprise iFixit dénonce sur X (anciennement Twitter) les méthodes du robot d’Anthropic. iFixit aurait été visité plus d’un million de fois en 24 heures. Une technique agressive pouvant surcharger les serveurs et entraîner du travail supplémentaire pour les équipes.
Des engagements non tenus
Cette pratique agressive est d’autant plus étonnante pour la société montée par d’anciens employés d’OpenAI, dont Jan Leike qui quittait OpenAI en mai pour des raisons éthiques sur l’impact que pouvait avoir l’IA sur la société. Antrophic déclarait alors « développer et maintenir de manière responsable une IA avancée pour le bénéfice à long terme de l’humanité ». On en est loin.
« Nous respectons le fichier robots.txt et notre robot d’exploration a respecté ce signal lorsque iFixit l’a implémenté », a déclaré la porte-parole d’Anthropic, Jennifer Martinez à The Verge. Les équipes d’Anthropic semblent donc avoir réagi après coup pour rester dans les règles. L’entreprise se défend d’ailleurs sur son site internet d’avoir une politique agressive ou nuisible pour les sites qu’elle visite.
Bien que ces données soient accessibles sur internet, elles ne sont pas pour autant exempt de droits d’auteur. Une notion que cette industrie semble avoir du mal à intégrer.
Notre émission Twitch SURVOLTÉS, c’est un mercredi sur deux de 17h à 19h : retrouvez-vous nous pour parler voiture électrique ou vélo électrique, autour de débats, d’interviews, d’analyses et de jeux !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix