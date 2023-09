Dans une plainte adressée à la justice américaine vendredi 8 septembre, quatre auteurs poursuivent OpenAI. Comme le rapporte The Verge, Michael Chabon, David Henry Hwang, Rachel Louise Snyder et Ayelet Waldman estiment que la start-up d'intelligence artificielle a enfreint la loi sur le copyright en entraînant ses grands modèles de langage GPT avec leurs livres.



Les plaignants précisent qu'ils n'ont jamais donné leur accord concernant l'utilisation par OpenAI de ces œuvres. Ils ont donc lancé une procédure de class action afin d'obtenir réparation pour eux-mêmes et pour d'autres auteurs, estimant comme eux qu'ils ont été spoliés sur la période donnée. Ce n'est pas la première fois que la société de Sam Altman est visée par une procédure judiciaire menée par des artistes. En juillet, la comédienne et autrice Sarah Silverman a attaqué OpenAI et Meta pour des faits similaires.

Précision et réécriture parfaites

La class action portée la semaine dernière par les quatre auteurs met l'accent sur la façon dont OpenAI "bénéficie commercialement et tire largement profit de son utilisation non autorisée et illégale" d'œuvres protégées par le copyright. Ils ont apporté à leur dossier ce qu'ils estiment être des preuves que leurs écrits font partie des tonnes de documents qui ont servi de supports d'entraînement à ChatGPT. "Lorsque ChatGPT est invité à résumer des œuvres écrites protégées par le copyright dont les auteurs sont les plaignants, il génère des résumés et des analyses précises et approfondies de leurs œuvres", peut-on lire dans la plainte.



Les auteurs citent en exemple le roman "The Amazing Adventures of Kavalier & Clay", pour lequel Michael Chabon a remporté en 2001 un prix Pulitzer. Sollicité à son sujet, ChatGPT est capable d'identifier avec une extrême précision les six traumatismes du personnage principal et d'écrire parfaitement dans le style du romancier en employant des tournures de phrase qui lui sont propres. Les trois autres auteurs, particulièrement reconnus par la critique et le public outre-Atlantique, constatent et décrivent la même situation pour leurs œuvres respectives.

La question de la source des livres

Ce qui donne à s'interroger sur la capacité d'OpenAI à consulter tous types de livres, y compris ceux qui sont soumis à la propriété intellectuelle, une fois qu'ils ont été publiés sur Internet. Michael Chabon et ses collègues s'interrogent sur la source utilisée pour accéder à leurs écrits et donnent dans leur plainte des pistes intéressantes, déjà évoquées par d'autres auparavant.



Selon eux, la start-up d'IA, qui a avoué de longue date son intérêt pour les livres tant ils peuvent guider ChatGPT dans l'écriture en grande quantité, aurait utilisé des bases de données controversées. Parmi elles, BookCorpus, une collection de 7 000 livres non publiés dont la plupart des auteurs n'ont pas donné leur consenti à ce qu'ils y soient intégrés. Mais aussi Books1, Books2 et Books3, des bases de données qui contiennent jusqu'à plusieurs centaines de milliers d'ouvrages. Les plaignants font également allusion aux bibliothèques illégales en ligne telles que Sci-Hub, LibGen et Bibiliotik, qui auraient pu servir à entraîner ChatGPT.