Tumblr et WordPress prêts à vendre les données de leurs utilisateurs à Midjourney et OpenAI
Les données issues de contenus publiés sur Tumblr et WordPress sont sur le point d'être vendues à deux start-up d'IA générative bien connues : MidJourney et OpenAI. La maison-mère de ces deux plateformes de blog, Automattic, promet d'exclure les données des utilisateurs s'y opposant... si ces derniers choisissent "d'opt-out" dans les paramètres de leur compte.
Des documents internes obtenus par le média 404 montrent qu'Automattic, entreprise propriétaire de Tumblr et WordPress.com, se prépare à vendre les données de ses utilisateurs aux start-up d'IA générative OpenAI et MidJourney. Si les types de données destinées à chacune de ces entreprises ne sont pas précisés dans les documents qui ont fuité, les échanges internes auxquels 404media a eu accès indiquent clairement que ces accords sont imminents.
"La documentation interne détaille un processus compliqué et controversé au sein même de Tumblr", indique notre consœur de 404. Elle a ainsi eu accès à un message interne rédigé par Cyle Gage, chef de produit chez Tumblr, indiquant qu'une requête effectuée pour préparer les données pour OpenAI et Midjourney a compilé un grand nombre de messages d'utilisateurs alors qu'elle n'était pas censée le faire. Il n'est pas clair si ces données ont déjà été envoyées ou si l'intention est d'apporter un processus pour nettoyer les données avant leur envoi.
Un envoi massif de contenus vers Midjourney et OpenAI incluant des données privées
Les données liées aux contenus publics de Tumblr entre 2014 et 2023 ont donc été compilées pour être envoyées aux deux sociétés d'IA. Seul hic : des données privées ont également été inclues. Cela comprend des messages privés sur des blogs publics, des publications sur des blogs supprimés ou suspendus, des demandes restées sans réponse (normalement, elles ne sont pas publiques tant qu'elles n'ont pas reçu de réponse), des réponses privées (celles-ci n'apparaissent qu'au destinataire et ne sont pas publiques), des messages marqués "explicites" / NSFW / "matures".
Du contenu provenant de blogs partenaires premium semblent également avoir été aspirés. Dans son message, Cyle Gage précise qu'il peut s'agir de "blogs de marques spéciales comme l'ancien blog musical d'Apple, par exemple, qui a dépensé de l'argent avec nous pour une campagne publicitaire". Le chef de produit chez Tumblr semble d'ailleurs légèrement perdu à ce sujet, précisant que ces contenus "peuvent contenir des créations qui ne nous appartiennent pas et que nous n'avons pas le droit de partager".
Des paramètres supplémentaires pour protéger les données privées
Ce 27 février, Automattic a publié un communiqué pour le moins équivoque. Avec pour titre "Protéger le choix de l'utilisateur", la firme écrit ainsi que si l'IA transforme rapidement la façon de créer et consommer du contenu, "[elle a] toujours cru en un Web libre et ouvert et en un choix individuel" et attache une grande importance au respect des préférences de ses utilisateurs. Elle a donc publié davantage d'options destinées à renforcer le contrôle sur le contenu créé par les utilisateurs de WordPress.com et Tumblr.
"Nous bloquons actuellement, par défaut, les principaux robots d'indexation (crawler, ndlr) des plateformes d'IA, y compris ceux des plus grandes entreprises technologiques, et mettons à jour nos listes au fur et à mesure du lancement de nouveaux". Automattic a, depuis longtemps, un paramètre pour décourager les moteurs de recherche d'indexer un site sur WordPress.com et Tumblr et vient d'ajouter des paramètres similaires à WordPress.com et Tumblr pour décourager ce scan par les sociétés d'IA et empêcher tout partage de données avec des tiers.
Se voulant rassurant quant au contenu réellement partagé avec des tiers, Automattic indique la chose suivante : "Nous partagerons uniquement le contenu public hébergé sur WordPress.com et Tumblr à partir des profils qui n'ont pas opté pour ce paramètre". Et d'ajouter : "Nous prévoyons également d'aller plus loin en informant régulièrement tous nos partenaires des personnes qui se sont récemment désabonnées et en demandant que leur contenu soit supprimé des sources passées et des entraînements à venir".
Un procédé partagé par d'autres entreprises au mépris des utilisateurs
Une histoire qui n'est pas sans rappeler celle du partenariat conclu entre Reddit et Google. Quelques semaines avant son introduction en bourse, la plateforme a cherché à prouver son potentiel économique. Elle a donc signé un accord de 60 millions de dollars sur une base annuelle avec le géant de la recherche afin de lui permettre d'entraîner ses modèles sur le contenu de la plateforme. Les données pourraient donc être récupérées sans que les utilisateurs n'aient explicitement donné leur autorisation.
OpenAI a également fait appel à des dons de données. La firme a dévoilé le 9 novembre 2023 son initiative Open AI Data Partnerships qui promeut une amélioration de ses modèles d’IA sans aucune rémunération en retour, au titre que ses modèles "profiteront à toute l'humanité". Pas certain que l'argument ait vraiment plu jusqu'à présent.
L'AI Act protégera-t-il les utilisateurs de cette "aspiration de données" ?
A date, aucune réglementation n'exige que ces robots d'indexation suivent les préférences citées précédemment par Automattic. Pourtant, cela pourrait changer avec le projet de règlement européen sur l’intelligence artificielle – l'AI Act – qui a donc été validé à l’unanimité des ambassadeurs des vingt-sept pays de l’Union européenne réunis à Bruxelles le 2 février dernier.
SUR LE MÊME SUJET
Tumblr et WordPress prêts à vendre les données de leurs utilisateurs à Midjourney et OpenAI
Tous les champs sont obligatoires
0Commentaire
Réagir