Recevez chaque jour toute l'actualité du numérique

x

La Cnil approuve WeData pour l’anonymisation des données de santé

La société française WeData propose une solution basée sur les avatars pour anonymiser les dossiers de patients à l'hôpital. Ces données de santé peuvent alors être ré-utilisées dans le domaine de la recherche médicale sans risque pour les malades de se faire ré-identifier.
Twitter Facebook Linkedin Flipboard Email
×

La Cnil approuve WeData pour l’anonymisation des données de santé
La Cnil approuve WeData pour l’anonymisation des données de santé © Cnil

Un consultation chez le généraliste, une ablation de kyste à l’hôpital, un traitement au long cours pour le diabète… Toutes nos données relatives à la santé font partie des données sensibles protégées par le Règlement européen sur protection des données (RGPD). Or ces données sont massivement utilisées dans le monde de la recherche, par les laboratoires pharmaceutiques, les hôpitaux, les centres de recherche ou les universités.

Elles permettent de mieux comprendre les maladies et de mettre au point de nouveaux traitements. Pour être utilisées pour la recherche et la commercialisation, les données de santé doivent être anonymisées. Mais ce processus ne fonctionne pas toujours, ce qui rend possible une ré-identification des patients. Pour résoudre ce problème, la start-up WeData a mis au point une solution d’anonymisation des données. Elle fonctionne sur le principe d’avatars et ne permet pas la ré-identification des patients inclus dans les jeux de données.

"Dans le domaine des données de santé, on est souvent confronté au problème de devoir faire un choix entre la sécurité et le partage. Soit on sécurise les données, au détriment de leur qualité, ce qui les rend moins efficientes. Soit elles restent telles qu’elles mais on compromet leur confidentialité", explique Olivier Breillacq, dirigeant de WeData. Une fois que les données ont fuité, n’importe qui peut se servir de données de santé.

Que la fuite de données soit le résultat d’une simple perte ou d’un véritable acte malveillant, les conséquences pour le patient peuvent être multiples. "Lorsqu’on ré-identifie les personnes, on peut leur associer une pathologie ou un traitement. Imaginons qu’une banque apprenne qu’un de ses clients a un cancer. Elle peut exploiter ces données pour lui refuser un prêt." D’où l’importance de sécuriser leur exploitation.

Modifier légèrement les informations ré-identifiantes
 Pour anonymiser les données, WeData utilise une méthode d’avatars, qui repose sur une intelligence artificielle. Elle a pour but de brouiller les pistes sur le profil du patient. "L’algorithme permet de créer un profil à partir des données d’un individu. Cette méthode est centrée sur le patient, chez qui on modifie l’intégralité des données récoltées." Les données identifiantes, comme le nom, le prénom, l’adresse ou le numéro de sécurité sociale sont tout simplement supprimés. Les données indirectement identifiantes, comme le poids, la fréquence cardiaque, l’IMC ou le nombre de visites peuvent aussi permettre de ré-identifier un patients, lorsqu’on croise plusieurs d’entre elles.
 


Une représentation de données de vie réelle de patients (en gris) et d’avatars (en bleu). Les deux jeux doivent avoir la même pertinence pour être réutilisés.


Pour remédier à cela, chacune de ces données est légèrement modifiée. "Elles deviennent assez différentes des données de base pour garantir l’anonymat mais quand même assez proches des données de base afin de ne pas perdre leur valeur. L’idée reste de garder la granularité du jeu de données, avec toujours le même nombre de patients. Cette technologie permet d’assurer qu’on va garder les corrélations entre les individus et les distributions sur une variable." Lorsqu’une variable est modifiée, toutes les autres doivent être impactées. Admettons qu’il existe une corrélation entre la taille et le poids dans un jeu de données, alors il faudra modifier les deux afin de rester statistiquement pertinents.

Une procédure hors RGPD
La méthode a été validée par la Commission nationale informatique et libertés (CNIL), qui atteste que la technologie des avatars ne permet pas de ré-identifier les patients. "Les données, une fois transformées, ne dépendent donc ensuite plus du RGPD, puisque ce ne sont plus des données personnelles. Il n’existe plus de lien avec l’individu." Elles peuvent donc être conservées sans délai de suppression dans les structures qui en ont besoin pour mener une recherche scientifique.

WeData est déjà utilisé par plusieurs structures, comme le CHU de Nantes. Avec environ 2,3 millions de patients, l’hôpital a créé sa propre Clinique de données il y a quatre ans, après en avoir obtenu l’autorisation par la CNIL. Le CHU mène des projets de recherche dans plusieurs domaines, comme le VIH, la cardiologie ou les taux de glycémie. Chaque patient est informé que ses données seront réutilisées et a la possibilité de s’y opposer avant sa prose en charge.

"Notre solution est aussi utilisée par des laboratoires pharmaceutiques, que nous ne pouvons pas nommer par souci de confidentialité, ainsi que pour HAP2, un projet européen qui vise à améliorer le traitement et la prévention des pneumonies acquises à l’hôpital." A chaque projet ses propres paramètres, en fonction des usages que l’équipe veut faire des données. "Nous modulons les paramétrages pour que l’anonymisation soit toujours efficace, qu’il s’agisse d’une approche en open data ou pour une exploitation en interne."

Une seconde vie pour les données
La revalorisation des données dans le domaine médical le vent en poupe depuis quelques années. En témoigne la création du Health Data Hub en France en 2019, un immense entrepôt de données de santé qui comprend toutes les données récoltées par les hôpitaux, les données de l’assurance maladie, des mutuelles ou encore le CepiDC, un dossier qui recense toutes les causes de décès en France. Le Health Data hub doit permettre à des équipes de recherche de se servir de toutes ces données récoltées sur la santé des français pour faire avancer la science. Actuellement, 8 projets de recherche sont en cours sur cette base de données, dans le domaine du cancer du sein, du papillomavirus humain ou encore sur l’impact de l’exposition aux antibiotiques.

"Revaloriser ces données permet de leur donner une seconde vie, au-delà du simple traitement du patient", explique Olivier Breillacq. "Nous voulons montrer que cela peut être fait de façon éthique." Principal reproche fait au Health Data Hub : la structure est gérée par Microsoft, avec sa solution de cloud Azure. Dans son ordonnance du 13 octobre 2020, le Conseil d’État reconnaît l’existence d’un risque de transfert de données issues du Health Data Hub vers les États-Unis sur ordre des services de renseignements américains. Avec la technologie WeData, les patients du CHU de Nantes ne sont, eux, plus que des avatars. Un moyen de faire en sorte que les données de santé servent à tout le monde en restant respectueux de chacun.

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.

 
media