ChatGPT piraterait des livres, des auteurs trainent OpenAI en justice

 
Une plainte déposée par des écrivains américains attaque OpenAI en justice. Une association d’auteurs accuse l’entreprise d’avoir copié et utilisé les œuvres de ceux qu’elle représente afin d’entraîner ChatGPT. La popularité des auteurs en question pourrait renforcer l’action et changer la manière dont on entraîne les IA.

Pour entraîner ChatGPT, ou plutôt le modèle de langage GPT (sorte de moteur du chatbot d’IA), il faut du texte, beaucoup de texte. Parmi ceux utilisés, il y a évidemment des livres, qui allient quantité et qualité de rédaction. Le problème étant que ces livres sont protégés par le droit d’auteur. C’est précisément sur ce point qu’OpenAI est attaqué en justice après un dépôt de plainte de la part de plusieurs auteurs américains. Néanmoins, le souci semble plus profond : ces écrivains souhaitent aussi préserver leur profession.

Les auteurs américains veulent traîner OpenAI en justice

C’est The Verge qui rapporte ce jour une plainte déposée dans le district sud de New York par l’Author Guild, organisation professionnelle d’auteurs reconnue aux États-Unis, ainsi que 17 autres écrivains. Parmi ces derniers, on compte des célébrités, comme George R. R. Martin (Game of Thrones), Jonathan Franzen (Les Corrections), Josh Grishman ou encore Jodi Picoult. Afin de donner une dimension plus importante à cette action, les plaignants disent espérer que cette dernière soit classée comme action collective.

Sam Altman, patron d’OpenAI // Source : OpenAI

Ces auteurs souhaitent obtenir réparation « pour les violations flagrantes et préjudiciables des droits d’auteur enregistrés des plaignants sur les œuvres écrites de fiction ». Ils appuient également sur le fait qu’OpenAI aurait utilisé leurs ouvrages « sans autorisation ni contrepartie », peut-on lire dans le document de la plainte.

Pour l’avocate des plaignants Rachel Geman, « sans les œuvres protégées par le droit d’auteur des plaignants et de la classe proposée, les défendeurs [OpenAI] auraient un produit commercial très différent ». On peut supposer qu’elle sous-entend que sans les auteurs, ChatGPT serait moins performant, ce qui génèrerait moins de revenus pour OpenAI. Pour le moment, OpenAI n’a pas réagi à l’affaire, préférant sans doute faire la promotion de Dall-E 3, sorte de fusion entre ChatGPT et Dall-E.

OpenAI a-t-il piraté des livres sur Internet pour entraîner ChatGPT ?

L’affaire va cependant plus loin qu’une simple violation du droit d’auteur. Les plaignants accusent OpenAI d’avoir téléchargé leurs livres depuis des sites pirates d’ebooks. L’Author Guild précise dans sa plainte que GPT, mais aussi Llama de Meta ou BERT de Google ont recours à Common Crawl. Il s’agit d’un corpus de données de pages web et d’extraits de texte de milliards de pages. Pourtant, cet outil est connu pour contenir des textes de livres issus de sites pirates.

Le site Z-Library // Source : Frandroid

Autre outil mis en cause : Books2, un jeu de données créé par OpenAI. La plainte rappelle que selon certains chercheurs spécialisés en IA, cette base de données contiendrait des ebooks téléchargés depuis des bases pirates, comme Library Genesis, la plus connue, déjà mise en cause à de nombreuses reprises dans des affaires de violation des droits d’auteur. Certains pourraient provenir de Z-Library, un autre site Internet très connu, notamment dans le monde universitaire. Enfin, les plaignants se désolent du manque de transparence d’OpenAI vis-à-vis des données utilisées pour entraîner son modèle de langage.

ChatGPT peut-il mettre en danger les auteurs de fiction ?

Pour l’Author Guild et les quelque 17 autres auteurs ayant intenté l’action, les LLM (large langage models, pour « grands modèles de langage en français), les moteurs des chatbots comme ChatGPT, les mettent en danger. Selon eux, les LLM « permettent à n’importe qui de générer automatiquement et gratuitement (ou à très bas prix) des textes pour lesquels ils paieraient autrement des auteurs. » Autre souci : ces modèles de langages peuvent créer des œuvres dérivées des auteurs, « les imitant, les résumant ou les paraphrasant, et qui nuisent au marché de ces œuvres. »

Emiliano Vittoriosi sur Unsplash

Comme le rappelle la plainte, le PDG d’OpenAI Sam Altman avait déclaré devant le Congrès américain « veiller à ce que l’économie des créateurs reste dynamique » et vouloir que les systèmes de son entreprise « soient utilisés pour renforcer la créativité et pour soutenir et accroître l’humanité essentielle des artistes et des créateurs ». Des déclarations qui révèlent aussi un paradoxe de l’intelligence artificielle générative. Alors que l’IA a besoin de contenus pour s’entraîner toujours plus et être de plus en plus performante, elle contribue à fragiliser les producteurs desdits contenus. C’est alors aussi dans l’intérêt d’OpenAI et des autres sociétés spécialisées d’éviter de mettre à mal les industries culturelles.


Envie de rejoindre une communauté de passionnés ? Notre Discord vous accueille, c’est un lieu d’entraide et de passion autour de la tech.

Les derniers articles