De nouveaux auteurs accusent OpenAI d'avoir entraîné ChatGPT sur leurs livres illégalement

Persuadés que leurs ouvrages ont été intégralement ingérés par les grands modèles de langage d'OpenAI, quatre auteurs américains attaquent en justice la société et ses méthodes de collecte et d'entraînement.

Partager
De nouveaux auteurs accusent OpenAI d'avoir entraîné ChatGPT sur leurs livres illégalement

Dans une plainte adressée à la justice américaine vendredi 8 septembre, quatre auteurs poursuivent OpenAI. Comme le rapporte The Verge, Michael Chabon, David Henry Hwang, Rachel Louise Snyder et Ayelet Waldman estiment que la start-up d'intelligence artificielle a enfreint la loi sur le copyright en entraînant ses grands modèles de langage GPT avec leurs livres.

Les plaignants précisent qu'ils n'ont jamais donné leur accord concernant l'utilisation par OpenAI de ces œuvres. Ils ont donc lancé une procédure de class action afin d'obtenir réparation pour eux-mêmes et pour d'autres auteurs, estimant comme eux qu'ils ont été spoliés sur la période donnée. Ce n'est pas la première fois que la société de Sam Altman est visée par une procédure judiciaire menée par des artistes. En juillet, la comédienne et autrice Sarah Silverman a attaqué OpenAI et Meta pour des faits similaires.

Précision et réécriture parfaites

La class action portée la semaine dernière par les quatre auteurs met l'accent sur la façon dont OpenAI "bénéficie commercialement et tire largement profit de son utilisation non autorisée et illégale" d'œuvres protégées par le copyright. Ils ont apporté à leur dossier ce qu'ils estiment être des preuves que leurs écrits font partie des tonnes de documents qui ont servi de supports d'entraînement à ChatGPT. "Lorsque ChatGPT est invité à résumer des œuvres écrites protégées par le copyright dont les auteurs sont les plaignants, il génère des résumés et des analyses précises et approfondies de leurs œuvres", peut-on lire dans la plainte.

Les auteurs citent en exemple le roman "The Amazing Adventures of Kavalier & Clay", pour lequel Michael Chabon a remporté en 2001 un prix Pulitzer. Sollicité à son sujet, ChatGPT est capable d'identifier avec une extrême précision les six traumatismes du personnage principal et d'écrire parfaitement dans le style du romancier en employant des tournures de phrase qui lui sont propres. Les trois autres auteurs, particulièrement reconnus par la critique et le public outre-Atlantique, constatent et décrivent la même situation pour leurs œuvres respectives.

La question de la source des livres

Ce qui donne à s'interroger sur la capacité d'OpenAI à consulter tous types de livres, y compris ceux qui sont soumis à la propriété intellectuelle, une fois qu'ils ont été publiés sur Internet. Michael Chabon et ses collègues s'interrogent sur la source utilisée pour accéder à leurs écrits et donnent dans leur plainte des pistes intéressantes, déjà évoquées par d'autres auparavant.

Selon eux, la start-up d'IA, qui a avoué de longue date son intérêt pour les livres tant ils peuvent guider ChatGPT dans l'écriture en grande quantité, aurait utilisé des bases de données controversées. Parmi elles, BookCorpus, une collection de 7 000 livres non publiés dont la plupart des auteurs n'ont pas donné leur consenti à ce qu'ils y soient intégrés. Mais aussi Books1, Books2 et Books3, des bases de données qui contiennent jusqu'à plusieurs centaines de milliers d'ouvrages. Les plaignants font également allusion aux bibliothèques illégales en ligne telles que Sci-Hub, LibGen et Bibiliotik, qui auraient pu servir à entraîner ChatGPT.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

LES ÉVÉNEMENTS USINE DIGITALE

Tous les événements

Les formations USINE DIGITALE

Toutes les formations

ARTICLES LES PLUS LUS