Pour entraîner son IA, Facebook a piraté (et partagé) des millions de livres sans autorisations

 
En plein milieu d’un procès pour infraction au copyright, des preuves gênantes sont apparues suggérant que Meta a intentionnellement piraté des millions de livres depuis des ordinateurs appartenant à l’entreprise.
Crédit : Reiterlied – Flickr CC BY-NC-SA 2.0

Dans la course à l’IA, les droits d’auteurs semblent être une préoccupation accessoire. C’est en tout cas ce que suggère la dernière polémique que traverse Meta, maison-mère de Facebook. La firme est accusée d’avoir piraté des quantités astronomiques d’œuvres protégées pour entraîner son IA.

Comme le raconte TorrentFreak, c’est plus de 81 To d’ouvrages en tout genre qui aurait été obtenu par des moyens douteux.

Un piratage assumé

Tristement, l’utilisation de ces œuvres piratées pour entraîner l’IA de Meta n’est pas exactement une surprise. Le mois dernier, l’entreprise avait déjà avoué s’être servie de base de données illégalement acquise pour entraîner son IA. La pratique ne semble pas non plus perturber OpenAI qui a ouvertement admis qu’il serait « impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le droit d’auteur ».

Dans le cas de Meta, qui fait face à un procès pour violation du copyright, c’est surtout la méthode employée et la quantité de données siphonnées qui surprennent. « L’ampleur du piratage de Meta est stupéfiante », note la plainte. L’entreprise aurait ainsi « torrenté au moins 81,7 téraoctets de données provenant de plusieurs bibliothèques pirates par l’intermédiaire du site Anna’s Archive ». Identifié par le simple sigle AA, le site est une célèbre bibliothèque clandestine regorgeant d’articles, de magazines, de bandes dessinées et de livre en tout genre.

La page d’accueil d’Anna’s Archive en juin 2024 // Crédit : VectorVoyager – Wikimedia Commons (CC0 1.0 Universal)

Des correspondances par mail versées au dossier montrent pourtant que plusieurs employés semblaient mal à l’aise avec ce piratage à grande échelle. « L’utilisation de contenu piraté est éthiquement douteuse » soulève un salarié de Meta, tandis qu’un autre explique que « télécharger des torrents depuis la connexion du bureau a quelque chose d’étrange ».

Des craintes des salariés

Le même salarié soulève ensuite un problème évident relatif au modèle du téléchargement en torrent. « L’utilisation du torrent implique de “seeder” les fichiers, c’est-à-dire de les partager depuis nos serveurs vers d’autres clients, ce qui pourrait être légalement répréhensible ». Pour éviter que quiconque puisse identifier l’adresse IP de l’entreprise, Meta aurait alors bricolé sa configuration pour « seeder le moins possible », révèle la plainte.

Critiquant le deux poids, deux mesures de la justice américaine sur le sujet, la plainte signale que « des actes de piratage bien moins conséquents (à peine 0,008 % du volume siphonné par Meta) […] ont déjà donné lieu à des enquêtes criminelles ».

Pour aller plus loin
Adieu Yggtorrent ou Cpabien ? La justice met des bâtons dans les roues du piratage

En guise de défense, Meta affirme que l’utilisation de certaines de ces bibliothèques clandestines tombe sous le régime de l’exception au droit d’auteur (fair use). Et si Mark Zuckerberg affirme n’avoir pas donné son feu vert pour l’opération, des mails indiquent que la décision de passer par ces plateformes pirates a été prise « après consultation de MZ ».


Pour ne rater aucun bon plan, rejoignez notre nouveau channel WhatsApp Frandroid Bons Plans, garanti sans spam !