L’année 2024 sera peut-être l’année de la fin du Far West pour les IA génératives. Alors que Midjourney est impliqué dans des accusations de plagiat concernant 4 700 artistes, la société OpenAI doit faire face à des accusations de la presse à propos de ChatGPT.
Dans les deux cas, les sociétés ont massivement utilisé du contenu sur Internet pour rendre leur IA générative vraiment intelligente et pertinente, quitte à reprendre du contenu protégé par le droit d’auteur, le copyright. La justice va devoir trancher s’il s’agit d’un usage acceptable ou non.
Créer une IA sans vol serait impossible
C’est dans un article du journal anglais The Guardian que l’on peut lire la première réponse d’OpenAI à l’accusation très sérieuse du New York Times. D’après la startup, associée à Microsoft dans le domaine, il serait tout simplement impossible de concevoir ses outils comme ChatGPT sans accès à du contenu protégé par le copyright.
Pour rappel, les outils d’IA génératives comme ChatGPT, Midjourney ou Stable Diffusion sont basés sur des Large Language Model, ou LLM. Pour gagner en intelligence, il faut les entrainer sur un très vaste corpus de données.
Or le principe même du copyright, en particulier au Royaume-Uni ou aux États-Unis, est qu’il devrait être impossible d’utiliser à des fins commerciales une œuvre sans l’accord de ses ayants droit. OpenAI n’est pas allé voir chaque propriétaire des milliers d’articles que GPT a consultés pour son entrainement.
Étant donné que le droit d’auteur couvre aujourd’hui pratiquement toutes les formes d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux – il serait impossible d’entrainer les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le droit d’auteur.
On retrouve dans ce raisonnement une philosophie aussi ancienne que la Silicon Valley : il faut parfois ignorer la loi pour innover et devenir assez gros pour forcer la loi à s’adapter. C’est le bras de fer que vont désormais essayer les nouvelles sociétés de l’IA générative pour réclamer que l’usage illégal, qu’ils admettent eux-mêmes avoir fait des ressources sur Internet, doive devenir légal.
En d’autres termes, OpenAI aimerait pouvoir exploiter gratuitement du contenu qui a demandé un investissement (le salaire des journalistes dans le cas d’un média par exemple), pour en tirer ensuite un gain commercial à travers la vente des services autour de ChatGPT et Dall-E.
Les mesures d’OpenAI pour respecter les médias
Sentant que sa position pouvait être difficile à défendre publiquement, OpenAI a tout de même fait un rappel de certaines mesures mises en place pour respecter les médias. Tout d’abord, le service offre dorénavant une méthode pour empêcher GPT d’accéder aux données en ligne du média. Une solution utilisée par le New York Times depuis l’été 2023, mais qui ne règle pas la question de l’entrainement de l’IA avant cette date.
De plus, OpenAI qualifie la « régurgitation » que peut faire ChatGPT de bugs à corriger. Il s’agit ici de la possibilité pour ChatGPT de fournir des extraits précis au mot près d’articles payants du New York Times sans citer la source en question. Le New York Times a largement documenté ce fait dans les preuves accompagnant la déclaration du procès.
Enfin, en dehors de cette réponse publique, OpenAI cherche surtout à passer des partenariats avec les principaux groupes média pour obtenir le droit, dans le cadre du copyright cette fois, d’accéder aux données. La firme a déjà réussi à signer avec Associated Press (l’équivalent américain de l’AFP), et Axel Springer (Business Insider).
Chaque matin, WhatsApp s’anime avec les dernières nouvelles tech. Rejoignez notre canal Frandroid pour ne rien manquer !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix