Pour entraîner ChatGPT, ou plutôt le modèle de langage GPT (sorte de moteur du chatbot d’IA), il faut du texte, beaucoup de texte. Parmi ceux utilisés, il y a évidemment des livres, qui allient quantité et qualité de rédaction. Le problème étant que ces livres sont protégés par le droit d’auteur. C’est précisément sur ce point qu’OpenAI est attaqué en justice après un dépôt de plainte de la part de plusieurs auteurs américains. Néanmoins, le souci semble plus profond : ces écrivains souhaitent aussi préserver leur profession.
Pour aller plus loin
ChatGPT : son fonctionnement, son potentiel et ses dangers… Le guide ultime pour tout comprendre
Les auteurs américains veulent traîner OpenAI en justice
C’est The Verge qui rapporte ce jour une plainte déposée dans le district sud de New York par l’Author Guild, organisation professionnelle d’auteurs reconnue aux États-Unis, ainsi que 17 autres écrivains. Parmi ces derniers, on compte des célébrités, comme George R. R. Martin (Game of Thrones), Jonathan Franzen (Les Corrections), Josh Grishman ou encore Jodi Picoult. Afin de donner une dimension plus importante à cette action, les plaignants disent espérer que cette dernière soit classée comme action collective.
Ces auteurs souhaitent obtenir réparation « pour les violations flagrantes et préjudiciables des droits d’auteur enregistrés des plaignants sur les œuvres écrites de fiction ». Ils appuient également sur le fait qu’OpenAI aurait utilisé leurs ouvrages « sans autorisation ni contrepartie », peut-on lire dans le document de la plainte.
Pour aller plus loin
Qui est OpenAI, le créateur de ChatGPT et Dall-E ?
Pour l’avocate des plaignants Rachel Geman, « sans les œuvres protégées par le droit d’auteur des plaignants et de la classe proposée, les défendeurs [OpenAI] auraient un produit commercial très différent ». On peut supposer qu’elle sous-entend que sans les auteurs, ChatGPT serait moins performant, ce qui génèrerait moins de revenus pour OpenAI. Pour le moment, OpenAI n’a pas réagi à l’affaire, préférant sans doute faire la promotion de Dall-E 3, sorte de fusion entre ChatGPT et Dall-E.
OpenAI a-t-il piraté des livres sur Internet pour entraîner ChatGPT ?
L’affaire va cependant plus loin qu’une simple violation du droit d’auteur. Les plaignants accusent OpenAI d’avoir téléchargé leurs livres depuis des sites pirates d’ebooks. L’Author Guild précise dans sa plainte que GPT, mais aussi Llama de Meta ou BERT de Google ont recours à Common Crawl. Il s’agit d’un corpus de données de pages web et d’extraits de texte de milliards de pages. Pourtant, cet outil est connu pour contenir des textes de livres issus de sites pirates.
Autre outil mis en cause : Books2, un jeu de données créé par OpenAI. La plainte rappelle que selon certains chercheurs spécialisés en IA, cette base de données contiendrait des ebooks téléchargés depuis des bases pirates, comme Library Genesis, la plus connue, déjà mise en cause à de nombreuses reprises dans des affaires de violation des droits d’auteur. Certains pourraient provenir de Z-Library, un autre site Internet très connu, notamment dans le monde universitaire. Enfin, les plaignants se désolent du manque de transparence d’OpenAI vis-à-vis des données utilisées pour entraîner son modèle de langage.
ChatGPT peut-il mettre en danger les auteurs de fiction ?
Pour l’Author Guild et les quelque 17 autres auteurs ayant intenté l’action, les LLM (large langage models, pour « grands modèles de langage en français), les moteurs des chatbots comme ChatGPT, les mettent en danger. Selon eux, les LLM « permettent à n’importe qui de générer automatiquement et gratuitement (ou à très bas prix) des textes pour lesquels ils paieraient autrement des auteurs. » Autre souci : ces modèles de langages peuvent créer des œuvres dérivées des auteurs, « les imitant, les résumant ou les paraphrasant, et qui nuisent au marché de ces œuvres. »
Comme le rappelle la plainte, le PDG d’OpenAI Sam Altman avait déclaré devant le Congrès américain « veiller à ce que l’économie des créateurs reste dynamique » et vouloir que les systèmes de son entreprise « soient utilisés pour renforcer la créativité et pour soutenir et accroître l’humanité essentielle des artistes et des créateurs ». Des déclarations qui révèlent aussi un paradoxe de l’intelligence artificielle générative. Alors que l’IA a besoin de contenus pour s’entraîner toujours plus et être de plus en plus performante, elle contribue à fragiliser les producteurs desdits contenus. C’est alors aussi dans l’intérêt d’OpenAI et des autres sociétés spécialisées d’éviter de mettre à mal les industries culturelles.
Rendez-vous un mercredi sur deux sur Twitch, de 17h à 19h, pour suivre en direct l’émission SURVOLTÉS produite par Frandroid. Voiture électrique, vélo électrique, avis d’expert, jeux ou bien témoignages, il y en a pour tous les goûts !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix